我目前在我的 Java 项目中使用 Snowball Stemmer (Porter2) 来词干词等。但是,它词干的词要么不一定需要词干,要么词干太多?例如,online -> onlin,why -> whi,raise-> rais,appreciate -> appreci。
有什么方法可以尝试防止这种不必要的词干,因为我希望它通过实现某种可以避免这些的字典来给我有意义的词,以及词干需要词干的词,例如treating -> treat,records -> record等development -> develop词干?或者是否有任何其他类似于 Snowball 的词干分析器在词干能力方面不太精确?
感谢所有的帮助。
这是我的功能。