在词性标注器中,给定句子的最佳可能标签是使用 HMM 确定的
P(T*) = argmax P(Word/Tag)*P(Tag/TagPrev)
T
但是当训练语料库中没有出现“Word”时,P(Word/Tag) 对给定的所有可能的标签产生零,这就没有选择最好的空间了。
我尝试了几种方法,
1) 为所有未知词分配少量概率,P(UnknownWord/AnyTag)~Epsilon... 意味着这通过分配恒定概率完全忽略了未知词的 P(Word/Tag)。所以对未知词的决策是先验概率。正如预期的那样,它不会产生好的结果。
2)拉普拉斯平滑我对此感到困惑。我不知道(1)和这个有什么区别。我理解拉普拉斯平滑的方式将常数概率(lambda)添加到所有未知和已知单词。所以所有未知单词将获得恒定概率(lambda 的分数)并且已知单词概率将相对相同,因为所有单词的概率增加了拉姆达。拉普拉斯平滑与前一个相同吗?
*) 有没有更好的方法来处理生词?