0

我有一个关于 Porter Stemmer 算法的问题,我在互联网上研究过,

但我找不到词干不足和词干过度之间的区别。

波特算法是低估还是过度?

你有想法吗?

提前致谢

4

1 回答 1

1

当截止后缀太长时会发生过度提取,这会导致不相关单词的虚假匹配。

Understemming 是相反的——例如,一个不会切断任何本质上understems 的词干分析器。

我怀疑 Porter Stemmer 会不时犯两种类型的英语错误。请注意,其他语言的实现可能会表现得非常不同(谈到 Snowball,它具有针对多种语言的用户提供的算法)。它们甚至可能在词干的语言定义上有所不同。

于 2012-11-25T14:54:32.857 回答