1

我需要使用 porter stemmer 算法在我的应用程序中获取词干,但是当我测试从http://www.tartarus.org/~martin/PorterStemmer获得的算法时,词干提取的结果不正确词干,例如:happy --> happi virus --> viru etc 你能帮我解决吗?

4

1 回答 1

2

引用您的链接

2. 为什么词干分析器不能产生正确的词?

词干提取算法在删除词干后没有留下真实单词,这通常被认为是一个粗略的错误。但是词干提取的目的是将单词的变体形式组合在一起,而不是将单词映射到其“范式”形式。

并与此相关,

3. 为什么会出现错误?

问题通常以这样的形式出现,为什么单词 X 应该被词干为 x1,而人们本来希望它被词干为 x2?重要的是要记住,词干算法无法达到完美。总的来说,它会(或可能)提高 IR 性能,但在个别情况下,它有时可能会产生错误或看起来错误。当然,这与建议可能包含在词干分析器中以提高其性能的附加规则是不同的。

于 2010-12-23T07:46:43.417 回答