0

我即将启动 Lucene.NET 实现,我担心使用PorterStemFilter. 在这里阅读并阅读源代码,对于我的需求来说,这似乎太激进了。

我需要一些更简单的东西,它不寻找根,而只是删除“er”、“ed”、“s”等后缀。根据我的阅读,KStem 可以解决问题。

我一辈子都找不到 .NET 版本的 KStem。我什至找不到用于处理移植的 Java 版本的源代码。

有人能指出我正确的方向吗?

看起来很容易通过简单地删除我不想要的步骤来手工制作一个简化的 PorterStemmer。有人成功了吗?

4

1 回答 1

0

您可以使用HunspellStemmer,它是 contrib 的一部分。它可以使用免费提供的 hunspell 字典来提供适当的词干。

于 2013-05-04T12:30:40.017 回答