0

几天来,我一直在尝试改进 NLTK 上的 POS 标记器,但我无法弄清楚。现在,默认标记器确实不准确,并且将大多数单词标记为“NN”。如何改进标记器以使其更准确?我已经查找了训练标记器,但我无法让它工作。

有人有一个简单的方法吗?多谢。

4

1 回答 1

1

你是一次一个词还是在一个大的语料库中做?通常 POS 标记算法使用单词是标记类型的概率,例如“NN”,但它们也使用周围的句子上下文来预测,因此单词越多,准确的可能性就越大。

您还可以尝试使用不同的 Unigram、bigram、trigram 等标记来尝试以性能为代价获得更高的准确性。你可以在这里阅读有关这样做的信息:http ://www.nltk.org/book/ch05.html

于 2017-02-03T21:36:01.830 回答