0

未知词的词性标注和已知词的词性标注有什么不同。是否有任何工具可以预测单词的词性标记..

4

2 回答 2

4

处理词汇外单词的一种常见方法是将训练语料库中出现频率低的所有单词(例如,频率 < 3)替换为标记 * RARE *,因此标注器可以粗略地捕获如何标记稀有词。然后在测试阶段,将不在标注者词汇表中的每个单词都视为 * RARE *。

一种更简单的方法是用多数标记标记每个词汇表外的单词。以下代码使用 nltk 工具包将每个看不见的单词标记为“NN”。

tagger = nltk.UnigramTagger(trainingCorpus, backoff=nltk.DefaultTagger('NN'))

于 2013-05-20T17:24:11.140 回答
0

TnT tagger 的论文提出了一种标记未知单词的有效方法。

在这篇文章中可以找到另一种使用词典来处理未知单词的方法。文章表明,与 TnT 相比,基于词典的方法在 13 种语言(包括保加利亚语、捷克语、荷兰语、英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语、瑞典语、泰语和越南语)上获得了有希望的未知单词标记结果. 您还可以在 13 种语言上的 TnT 和其他两个 POS 和形态标记器的文章准确度结果(已知词和未知词)中找到。

于 2015-11-25T01:21:22.457 回答