0

我曾经使用SnowBallAnalyzer将自定义停用词过滤与基本词干结合起来,但它已被弃用。例如在索引配置中,我可以很容易地指定:

IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_32,
                new SnowballAnalyzer(Version.LUCENE_32, "name", stopSet));

stopSet我的自定义停用词列表在哪里。

我现在如何创建一个分析器来过滤停用词并进行基本的英语词干提取?

谢谢。

4

1 回答 1

0

使用英语分析器

new EnglishAnalyzer(Version.LUCENE_32, stopSet)

如果您没有将有效的词干分析器名称传递给 SnowballAnalyzer 构造函数,我对您列出的代码如何做任何特别有用的事情感到有些困惑。似乎它应该在这里抛出异常:

 Class<?> stemClass = Class.forName("org.tartarus.snowball.ext." + name + "Stemmer");

由于没有词干分析器称为:“ org.tartarus.snowball.ext.nameStemmer”。

于 2013-08-30T15:54:12.710 回答