0

我正在使用 solr 6,我的要求是找到其中重复了 5 个连续单词(用空格分隔)的文档。

因此,为了实现这一点,我计划以 5 个单词的形式对内容进行索引,例如,如果我的内容是“The quick brown fox jumps over the lazy dog”,它应该索引为“The quick brown fox jumps”、“quick brown狐狸跳过”、“棕狐跳过”。

为了配置分词器,我参考了这个wiki,但没有找到任何可以解决这个问题的分词器。所以我正在寻找一种方法来创建新的分词器类或使用提供的可以解决我的问题的分词器的任何其他方式。如果有人可以帮助我解决这个问题,那将是不言而喻的。

4

1 回答 1

1

您正是为此目的使用了Shingle 过滤器。它是一个过滤器,而不是一个标记器,但可以满足您的需求。

于 2017-07-10T08:11:13.270 回答