在 Lucene 中,我希望对产品进行索引 - 据我了解,诸如 t-shirt 之类的词被标记为“t”和“shirt”。
我希望搜索“衬衫”不匹配 T 恤 - 即 - 将“T 恤”视为单个标记。
实现这一目标的最简单方法是什么?
干杯。
您可以更新规则StandardTokenizer
并创建自定义规则。
为此,使用JFlex通过更改原始规则重新生成StandardTokenizerImpl类。(您需要将输出转换为 c#)
然后获取StandardTokenizer的代码并将其更改为使用 JSFlex 新生成的 TokenizerImpl。
如果您不需要 StandardTokenizer 中的现有规则,您也可以尝试使用WhiteSpaceTokenizer。