我想使用 solrkeepwordfilterfactory
但没有为此获得适当的标记器。用例是,我有一个字符串说hi i am coming, bla-bla go out.
现在从下面的字符串中我想保留像hi i
,coming,
等bla-bla
这样的词。那么与过滤器工厂一起使用什么标记器,以便我能够在方面获得任何这样的组合。尝试了不同的标记器,但没有得到确切的结果。我正在使用solr 4.0
. 是否有任何这样的标记器可以根据使用的 keepwords 进行标记。
问问题
814 次
1 回答
1
您的标记化“规则”是什么(将长文本拆分为单个标记)。上面的例子似乎暗示有时你有一个单词标记,有时是一个多单词(“hi i”)。多词的情况在这里是有问题的,但是您可以通过组合ShingleFilterFactory来为您提供多词标记以及原始标记,然后只保留您想要的项目。
我不确定 KeepWord 过滤器是否能正确处理多字串。如果没有,您可能希望在 shingle 过程中使用特殊的分隔符,然后作为最后一步正则表达式将其过滤回空格。
于 2013-01-23T13:33:20.200 回答