1

我有一个标记化的文本(拆分的句子和拆分的单词)。并基于此结构创建 Apache Lucene 索引。扩展或替换标准标记器以使用自定义标记的最简单方法是什么。我在看 StandardTokenizerImpl,但看起来很复杂。可能还有其他方法吗?

4

1 回答 1

0

StandardTokenizerImpl 很复杂,因为它是从 JFlex 语法生成的。

如果你想实现自己的分词器,你需要做的就是扩展分词器

例如,WhitespaceTokenizer是一个简单的标记器,它在空格处分割标记。

于 2012-09-27T10:19:40.193 回答