我一直在试验斯坦福 NLP 工具包及其词形还原功能。我很惊讶它是如何将某些单词词形还原的。例如:
depressing -> depressing
depressed -> depressed
depresses -> depress
它不能转换成同一个引理depressing
。depressed
与confusing
和confused
发生hopelessly
类似情况hopeless
。我感觉它唯一能做的就是删除s
如果单词是这种形式(例如feels -> feel
)。这种行为对于英语中的 Lematizatiors 来说是否正常?我希望他们能够将常见单词的这种变体转换为相同的引理。
如果这是正常的,我应该使用词干分析器吗?而且,有没有办法在 StanfordNLP 中使用像 Porter(Snowball 等)这样的词干分析器?他们的文档中没有提到词干分析器;但是,API 中有一些CoreAnnotations.StemAnnotation
。如果无法使用 StanfordNLP,您推荐在 Java 中使用哪些词干分析器?