solr - SOLR 3.5 与 EdgeNGramFilter 匹配的子字符串

Question

以下是我用于自动完成目的的新字段类型：

<fieldType name="autocomplete_edge" class="solr.TextField">
   <analyzer type="index">
    <charFilter class="solr.MappingCharFilterFactory" mapping="mapping-ISOLatin1Accent.txt"/>
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.EdgeNGramFilterFactory" maxGramSize="30" minGramSize="2"/>
   </analyzer>
   <analyzer type="query">
    <charFilter class="solr.MappingCharFilterFactory" mapping="mapping-ISOLatin1Accent.txt"/>
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.LowerCaseFilterFactory"/>
   </analyzer>
</fieldType>

字段定义如下：

<field name="title" type="autocomplete_edge" indexed="true" stored="true" required="true"/>

我的问题是，假设索引字段文本是：

“指环王”

我的目标是 SOLR 可以通过以下所有查询返回此文档：

query-1：title：“th” query-2：title：“the lor” query-3：title：“lord of” query-4：title：“the rin”

等等

在通过 EdgeNGram 进行标记和过滤后分析生成的索引时，我看到索引项如下：

“th” “the” “lo” “lor” “lord” “of” “th” “the” “ri” “rin” “ring” “rings”

因此查询“lord of”匹配但查询“the ring”不匹配。

我知道，对于索引（性能和磁盘空间），保留边缘 ngram 的所有可能组合是昂贵的，但是对于应用程序，我们必须这样做。

欢迎任何可能的解决方案。

提前致谢并致以最诚挚的问候。

score 0 · Accepted Answer

查询the rings应该匹配。

EdgeNGramFilterFactory 将生成边缘图，但是生成的边缘图具有相同的位置。

因此，如果您检查由边缘 gram 生成的标记将具有相同的位置。

th, the -> 1
lo, lor, lord -> 2
th, the -> 3
ri, rin, ring, ring -> 4

因此，查询lord of以及the rings应该与搜索字段匹配，因为它们彼此相邻。

如果查询在同一字段上搜索，请使用调试检查。

solr - SOLR 3.5 与 EdgeNGramFilter 匹配的子字符串

1 回答 1

Related

Reference