为什么 solr RemoveDuplicatesTokenFilterFactory 不起作用的后续问题?
无论单词位置如何,如何让 solr 删除重复的单词?
例如:
Field value: text word word text word word
Expected tokens after X filter: text word
为什么 solr RemoveDuplicatesTokenFilterFactory 不起作用的后续问题?
无论单词位置如何,如何让 solr 删除重复的单词?
例如:
Field value: text word word text word word
Expected tokens after X filter: text word
编写自己的TokenFilter来实现这一点应该很容易。可能不简单的一件事是位置增量的处理(如果您有兴趣在此字段上运行短语查询范围)。如果您不知道如何开始,您可以查看StopFilter implementation。
我从“FilteringTokenFilter”创建了一个新的过滤器类。任务很简单。我会在添加到列表之前检查。
我创建了一个简单的插件消除重复的单词
要加载插件,JAR 文件(以及 EliminateDuplicate-*.jar,可以通过执行 mvn package 命令或https://github.com/volkan/lucene-solr-filter-eliminateduplicate/tree/master/solr/创建lib ) 在 Solr 主目录的 lib 目录中。lib 目录的位置在 solr.xml 文件附近。