2

我正在构建一个应用程序,它使用 solr 将较长的查询(通常是完整的句子)与几乎总是较短的索引文档(搜索词)进行匹配。所以,我的查询看起来像“我现在应该在利率低的时候买房子吗?我们在 2 年前提交了 BR。现在租房,有一些 sch 贷款债务”,我的索引文件就像“买房子”,“房子贷款利率”。

我认为正确的方法是使用 shingles、dismax 解析器和高度提升的“pf”字段。所以,我有一个“正常”的文本字段,kw_stopped(solr 3.4 中的 text_en)和一个非常激进的停用词列表,以及一个 kw_phrases 字段,它意味着短语 shingles。它的定义如下所示:

<fieldType name="shingle" class="solr.TextField" positionIncrementGap="100">
  <analyzer type="index">
    <tokenizer class="solr.WhitespaceTokenizerFactory"/>
    <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1"
    catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/>
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/>
<filter class="solr.ShingleFilterFactory" maxShingleSize="8" outputUnigrams="false"/>
  </analyzer>
  <analyzer type="query">
    <tokenizer class="solr.WhitespaceTokenizerFactory"/>
    <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
    <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1"
    catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/>
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/>
<filter class="solr.ShingleFilterFactory" maxShingleSize="8" outputUnigrams="false"/>
  </analyzer>
</fieldType>

我的架构字段如下所示:

<field name="kw_stopped" type="text_en" indexed="true" omitNorms="True" />
<!-- keywords almost as is - to provide truer match for full phrases -->
<field name="kw_phrases" type="shingle" indexed="true" omitNorms="True" />

我的搜索处理程序配置是这样的:

<requestHandler name="edismax" class="solr.SearchHandler" default="true">
  <lst name="defaults">
  <str name="defType">edismax</str>
  <str name="echoParams">explicit</str>
  <float name="tie">0.1</float>
  <str name="fl">
    keywords
  </str>
  <str name="mm">1</str>
  <str name="qf">
    kw_stopped^1.0 kw_phrases^5.0
  </str>
  <str name="pf">
    kw_phrases^50.0
  </str>
  <int name="ps">3</int>
  <int name="qs">3</int>
  <str name="q.alt">*:*</str>
 </lst>
</requestHandler>

当我打开 debugQuery 时,我注意到“kw_phrases”永远不会匹配,除非查询和文档完全相同。解析后的查询还显示,查询中的每个标记都显示为“kw_stopped”的单个 DisjunctionMaxQuery 子句,但所有带状疱疹都放在 kw_phrases 字段的一个巨大子句中。

我的理解差距在哪里?我怎样才能使这项工作?

谢谢!维杰

4

1 回答 1

4

如果您使用长句子来搜索较短的文档,那么您似乎一切顺利。

  • 使用Edismax 查询解析器
  • 使用mm 值到非常低的值或 0%,以便行为与 OR 相同,即任何单词。您可以更改它以匹配至少 2 或 3 个单词,以防止返回单个单词匹配的单词。
  • 这将允许您控制搜索字符串中的术语应如何匹配以返回文档。
  • 使用 pf(短语字段)来匹配具有完全匹配的更高级别的文档。
  • 代替显式 shingle 过滤器,使用 pf2 和 pf3(shingled 短语字段)字段来匹配更高级别的文档,这些文档具有两个或三个单词组合的 shingle 匹配项。
  • 使用 ps(短语 slop)值为短语匹配提供足够的 slop 值。

当然,您需要一个很好的停用词过滤器列表来防止在索引和搜索期间出现一般术语匹配。

于 2011-10-21T06:06:16.107 回答