词干是标记系统中需要的东西。我用delicious,我没有时间管理和修剪我的标签。我对我的博客更加小心,但它并不完美。我为嵌入式系统编写软件,如果它们包含词干提取功能,它们将更加实用(对用户有帮助)。
例如:
Parse
Parser
解析
对于我将它们放入的任何系统,都应该具有相同的含义。
理想情况下,某处有一个 BSD 许可的词干分析器,但如果没有,我在哪里可以学习常用的算法和技术?
除了 BSD 词干分析器,还有哪些其他开源许可词干分析器?
-亚当
词干提取的另一种选择是 WordNet,以及它的一个 API。有关词干提取和词形还原的一些基本信息,包括对 Porter 词干提取算法的描述,可以在Introduction to Information Retrieval中在线找到。