0

如何根据模式标记字符串?

例子。在以下字符串中

arg1:aaa,bbb AND arg2:ccc OR arg3:ddd,eee,fff

首先,我想基于 AND 和 OR 进行标记

所以

Token set 1 arg1:aaa,bbb

Token set 2 arg2:ccc

Token set 3 arg3:ddd,eee,fff

稍后我想将这些单独的令牌集传递给一个方法并基于“:”进行标记化

Token set 1
Token 1 aaa
Token 2 bbb

Token set 2
Token 1 ccc

Token set 3
Token 1 ddd
Token 2 eee
Token 3 fff

如何使用 Lucene 使用自定义模式进行标记化?

4

1 回答 1

1

要执行自定义标记化实现,您通常会实现自己的Tokenizer. 需要实施的主要方法是TokenStream.incrementToken().

然后您Tokenizer可以合并到一个Analyzer.

于 2013-07-23T15:15:47.190 回答