我正在测试斯坦福 NLP POS Tagger,我得到的结果好坏参半。
SOP(StanfordNLP.getInstance().getPOSMap("WHEAT flour(whole)".toLowerCase()));
SOP(StanfordNLP.getInstance().getPOSMap("Whole wheat flour".toLowerCase()));
给我以下输出
{NN=[wheat, flour, whole]}
{JJ=[whole], NN=[wheat, flour]}
我该如何处理这样的问题?它实际上重新排列了相同的单词。
编辑
也许,我应该解释一下这个问题。
我想比较2个句子。我的方法是对两个字符串执行 POS,然后分别比较两个字符串中的名词/形容词/动词并进行评分。
但是由于基于单词顺序的模糊标记(也由@Elliott 引用),我的排名在某些情况下会失败。有人可以提出解决方法吗?
是否有分类统计数据可以给出分类为形容词或动词等的名词的概率,我可以在我的评分算法中使用它来提供权重?
谢谢查哈特