6

词干是标记系统中需要的东西。我用delicious,我没有时间管理和修剪我的标签。我对我的博客更加小心,但它并不完美。我为嵌入式系统编写软件,如果它们包含词干提取功能,它们将更加实用(对用户有帮助)。

例如:
Parse
Parser
解析

对于我将它们放入的任何系统,都应该具有相同的含义。

理想情况下,某处有一个 BSD 许可的词干分析器,但如果没有,我在哪里可以学习常用的算法和技术?

除了 BSD 词干分析器,还有哪些其他开源许可词干分析器?

-亚当

4

4 回答 4

5

Snowball stemmer (C & Java) 我用过它的 Python 绑定,PyStemmer

于 2009-02-27T15:07:14.687 回答
5

查看用 python 编写的nltk 工具包。它有一个非常实用的词干分析器

于 2009-02-27T15:17:00.870 回答
2

词干提取的另一种选择是 WordNet,以及它的一个 API。有关词干提取和词形还原的一些基本信息,包括对 Porter 词干提取算法的描述,可以在Introduction to Information Retrieval中在线找到。

于 2009-03-05T14:46:37.587 回答
1

我相信Lucene有一个词干分析器(如果你愿意,它可以让你使用自己的词干分析器)。

编辑:刚刚检查过,Lucence 指的是Snowball站点,据我所知,它是一个开源词干库。

于 2009-02-27T15:05:50.367 回答