solr - 如何在 solr 中删除重复的令牌

Question

无论单词位置如何，如何让 solr 删除重复的单词？

例如：

Field value:                    text word word text word word
Expected tokens after X filter: text word

score 2 · Accepted Answer

编写自己的TokenFilter来实现这一点应该很容易。可能不简单的一件事是位置增量的处理（如果您有兴趣在此字段上运行短语查询范围）。如果您不知道如何开始，您可以查看StopFilter implementation。

score -1 · Accepted Answer

我从“FilteringTokenFilter”创建了一个新的过滤器类。任务很简单。我会在添加到列表之前检查。

我创建了一个简单的插件消除重复的单词

要加载插件，JAR 文件（以及 EliminateDuplicate-*.jar，可以通过执行 mvn package 命令或https://github.com/volkan/lucene-solr-filter-eliminateduplicate/tree/master/solr/创建lib ) 在 Solr 主目录的 lib 目录中。lib 目录的位置在 solr.xml 文件附近。

2 回答 2