我为要编制索引的关键字字段启用了 NGram 过滤,其中包含以下逗号分隔的术语:
wwwdebenhams.com、ebenhams.com、dbenhams.com、deenhams.com、debnhams.com、debehams.com、debenams.com、debenhms.com、debenhas.com、debenham.com、debenhams.ocm、debenhams.con、debenhams。 comn, debenhams.copm, debenhams.comm, debenhams.coom, debenhams.xom, debenhams.cpm, ebenhams.com, dbenhams.com, deenhams.com, debnhams.com, debehams.com, debenams.com, debenhms.com, debenhas.com, debenham.com,
核心架构如下所示:
<?xml version="1.0" ?>
<schema name="merchant" version="1.0">
<types>
<!--
Default numeric field types. For faster range queries, consider the tint/tfloat/tlong/tdouble types.
-->
<fieldType name="int" class="solr.TrieIntField" precisionStep="0" positionIncrementGap="0"/>
<fieldType name="text_lowercase_ngram" class="solr.TextField" termPositions="false" omitNorms="true">
<analyzer type="index">
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.WordDelimiterFilterFactory"
splitOnCaseChange="0"
splitOnNumerics="0"
stemEnglishPossessive="0"
generateWordParts="1"
generateNumberParts="1"
catenateWords="0"
catenateNumbers="0"
catenateAll="0"
preserveOriginal="1"
types="wdfftypes.txt"
/>
<filter class="solr.NGramFilterFactory" minGramSize="3" maxGramSize="20"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.WordDelimiterFilterFactory"
splitOnCaseChange="0"
splitOnNumerics="0"
stemEnglishPossessive="0"
generateWordParts="1"
generateNumberParts="1"
catenateWords="0"
catenateNumbers="0"
catenateAll="0"
preserveOriginal="1"
types="wdfftypes.txt"
/>
<filter class="solr.NGramFilterFactory" minGramSize="3" maxGramSize="20"/>
</analyzer>
</fieldType>
<fieldType name="text_exact" class="solr.TextField">
<analyzer>
<tokenizer class="solr.KeywordTokenizerFactory"/>
</analyzer>
</fieldType>
</types>
<fields>
<!-- Merchant Fields -->
<field name="id" type="int" indexed="true" stored="true" required="true"/>
<field name="site_id" type="int" indexed="true" stored="true" required="true"/>
<field name="title" type="text_lowercase_ngram" indexed="true" stored="true"/>
<field name="url" type="text_exact" indexed="true" stored="true"/>
<field name="keywords" type="text_lowercase_ngram" indexed="true" stored="true" />
<field name="description" type="text_lowercase_ngram" indexed="true" stored="true" />
<field name="type" type="int" indexed="true" stored="true"/>
<field name="popularity" type="int" indexed="true" stored="true"/>
<field name="category" type="text_exact" indexed="true" stored="true" multiValued="true"/>
</fields>
<!-- field to use to determine and enforce document uniqueness. -->
<uniqueKey>id</uniqueKey>
<!-- field for the QueryParser to use when an explicit fieldname is absent -->
<defaultSearchField>title</defaultSearchField>
<!-- SolrQueryParser configuration: defaultOperator="AND|OR" -->
<solrQueryParser defaultOperator="OR"/>
搜索“deb”会返回得分为 6.4406505 的匹配文档。搜索“debe”、“deben”、“debenh”和“debenha”不会返回任何结果。搜索“debenham”返回得分为 41.740173 的匹配文档,搜索“debenhams”返回得分为 111.30711 的文档。
我已经尝试使用查询分析器来显示上述每个查询的匹配项,但我没有看到结果中返回的匹配文档。有没有一种方法可以返回所有具有相应分数的文档,无论它们是否是正匹配,以便更好地理解为什么它们没有被返回?