我有一个标记化的文本(拆分的句子和拆分的单词)。并基于此结构创建 Apache Lucene 索引。扩展或替换标准标记器以使用自定义标记的最简单方法是什么。我在看 StandardTokenizerImpl,但看起来很复杂。可能还有其他方法吗?
问问题
2366 次
StandardTokenizerImpl 很复杂,因为它是从 JFlex 语法生成的。
如果你想实现自己的分词器,你需要做的就是扩展分词器类。
例如,WhitespaceTokenizer是一个简单的标记器,它在空格处分割标记。