java - 如何在 Lucene 4.4 中自定义停用词列表

Question

我正在使用 Lucene 4.4 来分析一个小型语料库。我试过 StopAnalyzer 和 StopAnalyzer。但是，我的结果中仍然显示了许多我不需要的术语。比如“I'll”、“we”、“x”等。所以，我需要自定义Lucene提供的停用词列表。我的问题是：

如何添加新的停用词？我知道 Lucene 有这个构造函数来使用自定义的停用词

公共 StopAnalyzer（版本 matchVersion，CharArraySet stopWords）

但我不想从头开始构建停用词。我想使用现有的停用词，只需添加我需要的额外停用词。
如何过滤掉所有数字，包括单词和文字数字，例如“1”、“20”、“五”、“十”等？

我的解决方案

如 femtoRgon 所示，Lucene 提供的停用词列表非常小，无法更改。我创建了一个带有停用词列表的 CustomizeStopAnalyzer。我使用 StandardTokenizer 并将几个过滤器链接在一起。
要删除数字，我必须添加一个 NumericFilter 类来检查每个标记以查看它是否为数字。非常感谢，

score 4 · Accepted Answer

1 - 标准停用词集是StopAnalyzer.ENGLISH_STOPWORD_SET. 它是不可修改的，因此您应该只复制代码作为起点：

 final List<String> stopWords = Arrays.asList(
   "a", "an", "and", "are", "as", "at", "be", "but", "by",
   "for", "if", "in", "into", "is", "it",
   "no", "not", "of", "on", "or", "such",
   "that", "the", "their", "then", "there", "these",
   "they", "this", "to", "was", "will", "with"
 );
 final CharArraySet stopSet = new CharArraySet(Version.LUCENE_CURRENT, 
     stopWords, false);

2 - 停止过滤器不是正确的方法。我怀疑，您可能正在寻找类似的东西LetterTokenizer，它将标记定义为连续的字母字符串，从而消除任何非字母字符。

java - 如何在 Lucene 4.4 中自定义停用词列表

1 回答 1

Related

Reference