对于我正在从事的项目,我需要一个好的词干算法。有人建议我看看 Porter Stemmer。当我查看 Porter 词干分析器的页面时,我发现它现在已被弃用,取而代之的是“Snowball”词干分析器。
我需要一个好的词干分析器,但我真的不能花大量时间来实现(或优化)我自己的词干分析器。什么是最好的“现成”、免费提供的词干分析器?是否有任何价格合理的非免费词干分析器?或者,Snowball 词干分析器是我最好的选择吗?
对于我正在从事的项目,我需要一个好的词干算法。有人建议我看看 Porter Stemmer。当我查看 Porter 词干分析器的页面时,我发现它现在已被弃用,取而代之的是“Snowball”词干分析器。
我需要一个好的词干分析器,但我真的不能花大量时间来实现(或优化)我自己的词干分析器。什么是最好的“现成”、免费提供的词干分析器?是否有任何价格合理的非免费词干分析器?或者,Snowball 词干分析器是我最好的选择吗?
Porter2词干分析器是我决定使用的。似乎搬运工词干分析器是标准,但是当我找到作者的页面时,他推荐了“雪球(Porter2)”词干分析器。此页面上有一个 C 端口链接。
这实际上取决于您打算如何应用它。自然语言工具包 ( http://nltk.sourceforge.net ) 中实现了许多词干分析器,应该能够处理大多数应用程序。我更喜欢 Morphy 词干分析器。
当然,它可以在 Python 中使用,因此如果您正在使用另一种语言,您可以随时查看代码以收集算法并将其转换为您选择的语言。Python 具有高度可读性。