有哪些统计引擎可以产生比 OpenNLP 工具套件更好的结果(如果有的话)?我正在寻找的是一个从文本中挑选关键字并提供这些动词和名词的词干的引擎,也许自然语言处理不是这里的方法。该引擎还应该使用不同的语言。
user152949
问问题
702 次
4 回答
3
您可能正在寻找Snowball项目,该项目为多种不同的语言开发了词干分析器。
于 2011-07-10T18:07:43.817 回答
2
LingPipe 作为完整的 NLP 工具可能值得一看。
但是,如果您需要做的就是找到动词和名词并将它们词干,那么您只需 1) 标记文本 2) 运行 POS 标记器 3) 运行词干分析器
我相信斯坦福工具可以为多种语言做到这一点,而 NLTK 将是一种快速尝试的方法。
但是,您要小心不要只使用动词和名词 - 您如何处理名词短语和多词名词?理想情况下,nlp 包可以处理这个问题,但很大程度上取决于您所在的领域。不幸的是,很多 NLP 是您的数据有多好。
于 2011-07-09T00:03:38.447 回答
1
我对 TreeTagger 有很好的经验:
http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/
它易于使用,比斯坦福的更快,并且属于“好的”词干分析器/标记器。它一次完成所有操作:标记化/词干化/标记。
于 2011-07-10T12:34:15.227 回答