1

在 Lucene 中,我希望对产品进行索引 - 据我了解,诸如 t-shirt 之类的词被标记为“t”和“shirt”。

我希望搜索“衬衫”不匹配 T 恤 - 即 - 将“T 恤”视为单个标记。

实现这一目标的最简单方法是什么?

干杯。

4

1 回答 1

1

您可以更新规则StandardTokenizer并创建自定义规则。

为此,使用JFlex通过更改原始规则重新生成StandardTokenizerImpl类。(您需要将输出转换为 c#)

然后获取StandardTokenizer的代码并将其更改为使用 JSFlex 新生成的 TokenizerImpl。

如果您不需要 StandardTokenizer 中的现有规则,您也可以尝试使用WhiteSpaceTokenizer

于 2013-10-29T08:47:33.560 回答