4

在词性标注器中,给定句子的最佳可能标签是使用 HMM 确定的

    P(T*) = argmax P(Word/Tag)*P(Tag/TagPrev)
              T

但是当训练语料库中没有出现“Word”时,P(Word/Tag) 对给定的所有可能的标签产生零,这就没有选择最好的空间了。

我尝试了几种方法,

1) 为所有未知词分配少量概率,P(UnknownWord/AnyTag)~Epsilon... 意味着这通过分配恒定概率完全忽略了未知词的 P(Word/Tag)。所以对未知词的决策是先验概率。正如预期的那样,它不会产生好的结果。

2)拉普拉斯平滑我对此感到困惑。我不知道(1)和这个有什么区别。我理解拉普拉斯平滑的方式将常数概率(lambda)添加到所有未知和已知单词。所以所有未知单词将获得恒定概率(lambda 的分数)并且已知单词概率将相对相同,因为所有单词的概率增加了拉姆达。拉普拉斯平滑与前一个相同吗?

*) 有没有更好的方法来处理生词?

4

2 回答 2

9

您的两种方法相似,但是,如果我理解正确,它们在一个关键方面有所不同。在 (1) 中,您将额外的质量分配给未知单词的计数,在 (2) 中,您将额外的质量分配给所有计数。你肯定想做(2)而不是(1)。

拉普拉斯平滑的问题之一是它对未知词给予了过多的提升,并且过多地降低了高概率词的概率(相对而言)。您的版本 (1) 实际上会使这个问题恶化。基本上,它会过度平滑。

拉普拉斯平滑词对于 HMM 来说是可以的,但这并不是很好。大多数人都会做加一平滑,但你可以尝试加一之类的东西。

如果您想超越这种幼稚的平滑方法,请查看Jason Eisner 的 HMM 教程附录中所述的“单次平滑” 。这里的基本思想是,对于未知词,应该为出现更广泛低频词的标签赋予更大的概率质量。例如,由于标签 NOUN 出现在大量不同的词上,而 DETERMINER 出现在少量不同的词上,所以一个看不见的词更有可能是一个名词。

如果你想变得更漂亮,你可以使用从非参数贝叶斯统计中提取的中国餐厅流程模型,对看不见的词/标签组合进行先验分布。 Kevin Knight 的贝叶斯推理教程有详细信息。

于 2012-09-27T02:51:33.203 回答
0

我认为基于 HMM 的TnT 标注器提供了一种更好的方法来处理未知单词(参见TnT 标注器论文中的方法)。

保加利亚语、捷克语、荷兰语、英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语、瑞典语、泰语和越南语等 13 种语言的 TnT 和其他两个词性和形态标记器的准确度结果(已知词和未知词),可以在这篇文章中找到。

于 2015-11-25T01:07:16.140 回答