我需要提取一段文本并从中提取“标签”列表。其中大部分是非常直接的。但是,我现在需要一些帮助来阻止生成的单词列表以避免重复。示例:社区/社区
我使用了 Porter Stemmer 算法的实现(顺便说一下,我正在用 PHP 编写):
http://tartarus.org/~martin/PorterStemmer/php.txt
这在一定程度上有效,但不会返回“真实”单词。上面的例子源于“commun”。
我试过“Snowball”(在另一个 Stack Overflow 线程中建议)。
http://snowball.tartarus.org/demo.php
对于我的示例(社区/社区),Snowball 源于“communiti”。
问题
有没有其他的词干算法可以做到这一点?有没有其他人解决过这个问题?
我目前的想法是,我可以使用词干算法来避免重复,然后选择我遇到的最短单词作为要显示的实际单词。