我目前在我的 Java 项目中使用 Snowball Stemmer (Porter2) 来词干词等。但是,它词干的词要么不一定需要词干,要么词干太多?例如,online -> onlin
,why -> whi
,raise-> rais
,appreciate -> appreci
。
有什么方法可以尝试防止这种不必要的词干,因为我希望它通过实现某种可以避免这些的字典来给我有意义的词,以及词干需要词干的词,例如treating -> treat
,records -> record
等development -> develop
词干?或者是否有任何其他类似于 Snowball 的词干分析器在词干能力方面不太精确?
感谢所有的帮助。
这是我的功能。