java - apache lucene 4 的自定义标记器

Question

我有一个标记化的文本（拆分的句子和拆分的单词）。并基于此结构创建 Apache Lucene 索引。扩展或替换标准标记器以使用自定义标记的最简单方法是什么。我在看 StandardTokenizerImpl，但看起来很复杂。可能还有其他方法吗？

score 0 · Accepted Answer

StandardTokenizerImpl 很复杂，因为它是从 JFlex 语法生成的。

如果你想实现自己的分词器，你需要做的就是扩展分词器类。

例如，WhitespaceTokenizer是一个简单的标记器，它在空格处分割标记。

1 回答 1