Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有一个关于 Porter Stemmer 算法的问题,我在互联网上研究过,
但我找不到词干不足和词干过度之间的区别。
波特算法是低估还是过度?
你有想法吗?
提前致谢
当截止后缀太长时会发生过度提取,这会导致不相关单词的虚假匹配。
Understemming 是相反的——例如,一个不会切断任何本质上understems 的词干分析器。
我怀疑 Porter Stemmer 会不时犯两种类型的英语错误。请注意,其他语言的实现可能会表现得非常不同(谈到 Snowball,它具有针对多种语言的用户提供的算法)。它们甚至可能在词干的语言定义上有所不同。