0

我正在测试斯坦福 NLP POS Tagger,我得到的结果好坏参半。

SOP(StanfordNLP.getInstance().getPOSMap("WHEAT flour(whole)".toLowerCase()));
SOP(StanfordNLP.getInstance().getPOSMap("Whole wheat flour".toLowerCase()));

给我以下输出

{NN=[wheat, flour, whole]}
{JJ=[whole], NN=[wheat, flour]}

我该如何处理这样的问题?它实际上重新排列了相同的单词。

编辑

也许,我应该解释一下这个问题。

我想比较2个句子。我的方法是对两个字符串执行 POS,然后分别比较两个字符串中的名词/形容词/动词并进行评分。

但是由于基于单词顺序的模糊标记(也由@Elliott 引用),我的排名在某些情况下会失败。有人可以提出解决方法吗?

是否有分类统计数据可以给出分类为形容词或动词等的名词的概率,我可以在我的评分算法中使用它来提供权重?

谢谢查哈特

4

2 回答 2

0

词性标注器总是给出不同的结果;词性标注是上下文相关的,因为一个词在不同的上下文中可以是名词、形容词或动词。POS 标记的AI 组件根据单词在句子中的顺序决定如何标记单词。

于 2017-01-03T17:03:03.433 回答
-2

斯坦福 POS Tagger 非常好。但是,如果您想轻松查看与标准 NLTK 和其他称为 Senna 的质量标记器的并排比较,您可以试试这个: https ://github.com/StealthyK/TaggerTimer

于 2017-07-28T23:11:43.820 回答