2

有哪些统计引擎可以产生比 OpenNLP 工具套件更好的结果(如果有的话)?我正在寻找的是一个从文本中挑选关键字并提供这些动词和名词的词干的引擎,也许自然语言处理不是这里的方法。该引擎还应该使用不同的语言。

4

4 回答 4

3

您可能正在寻找Snowball项目,该项目为多种不同的语言开发了词干分析器。

于 2011-07-10T18:07:43.817 回答
2

LingPipe 作为完整的 NLP 工具可能值得一看。

但是,如果您需要做的就是找到动词和名词并将它们词干,那么您只需 1) 标记文本 2) 运行 POS 标记器 3) 运行词干分析器

我相信斯坦福工具可以为多种语言做到这一点,而 NLTK 将是一种快速尝试的方法。

但是,您要小心不要只使用动词和名词 - 您如何处理名词短语和多词名词?理想情况下,nlp 包可以处理这个问题,但很大程度上取决于您所在的领域。不幸的是,很多 NLP 是您的数据有多好。

于 2011-07-09T00:03:38.447 回答
2

如果您正在寻找 Java 代码,我可以推荐斯坦福的工具集。他们的词性标注器适用于英语、德语、汉语和阿拉伯语(尽管我只将它用于英语),并且包括一个(仅限英语的)词形还原器。

这些工具都是免费的,准确性很高,对于基于 Java 的解决方案来说速度也不算太差;主要问题有时是不稳定的 API 和高内存使用。

于 2011-07-10T13:09:59.550 回答
1

我对 TreeTagger 有很好的经验:

http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/

它易于使用,比斯坦福的更快,并且属于“好的”词干分析器/标记器。它一次完成所有操作:标记化/词干化/标记。

于 2011-07-10T12:34:15.227 回答