indexing - 基于句子而不是整个字段值构建 Solr 建议

Question

我有一个带有建议器组件的 Solr 实例。它工作正常，使用AnalyzingInfixLookupFactory实现。

但是，我想将建议扩展到一个content可以包含大量文本的字段。建议者可以找到建议，但它返回整个字段值，而不仅仅是一个句子或句子的一部分。

因此，如果我想要对"foo"的建议，并且该content字段包含如下文本：

“我真的很喜欢比萨饼。还有甜甜圈。让我们从另一个地方买一些。foo bar 的地方。”

建议将是整个文本，而不仅仅是“The foo bar place”。而且，很明显，当content有数百个单词时，这就是不可用的。

有没有办法限制返回的建议字数？

这是我的搜索组件：

<searchComponent name="suggest" class="solr.SuggestComponent">
  <lst name="suggester">
    <str name="name">autocomplete</str>
    <str name="lookupImpl">AnalyzingInfixLookupFactory</str>
    <str name="indexPath">suggestions</str>
    <str name="dictionaryImpl">DocumentDictionaryFactory</str>
    <str name="field">suggest</str>
    <str name="suggestAnalyzerFieldType">text_suggest</str>
    <str name="buildOnStartup">false</str>
    <bool name="highlight">false</bool>
    <str name="payloadField">label</str>
  </lst>
</searchComponent>

这是请求处理程序：

<requestHandler name="/suggest" class="solr.SearchHandler" startup="lazy">
  <lst name="defaults">
    <str name="suggest">true</str>
    <str name="suggest.dictionary">autocomplete</str>
    <str name="suggest.count">10</str>
  </lst>
  <arr name="components">
    <str>suggest</str>
  </arr>
</requestHandler>

最后，这里是提出建议的领域：

<fieldType name="text_suggest" class="solr.TextField" positionIncrementGap="100">
  <analyzer>
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.StandardFilterFactory"/>
    <filter class="solr.LowerCaseFilterFactory"/>
  </analyzer>
</fieldType>

<field name="suggest" type="text_suggest" indexed="true" multiValued="true" stored="true"/>

然后我用一堆<copyField>s 把内容复制过来。

编辑 2015-08-28

content字段定义如下：

<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
  <analyzer type="index">
    <charFilter class="solr.MappingCharFilterFactory" mapping="txt/mapping-ISOLatin1Accent.txt"/>
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="txt/stopwords.txt" />
    <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="0" splitOnNumerics="0" preserveOriginal="1"/>
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
    <filter class="solr.NGramFilterFactory" minGramSize="3" maxGramSize="25"/>
  </analyzer>
  <analyzer type="query">
    <charFilter class="solr.MappingCharFilterFactory" mapping="txt/mapping-ISOLatin1Accent.txt"/>
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.LowerCaseFilterFactory"/>
  </analyzer>
</fieldType>

<field name="content" type="text" indexed="true" stored="true" termVectors="true"/>

编辑 2016-09-28

这个问题可能是相关的：Solr SuggestComponent 是否能够返回带状疱疹而不是整个字段值？

score 2 · Accepted Answer

我认为您可能正在寻找的是solr.ShingleFilterFactory，它仅允许根据字数限制令牌大小，而不是像您一直在尝试使用的solr.NGramFilterFactory中的文本长度。
有关更多详细信息，请参阅 SOLR wiki 页面：
https ://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#solr.ShingleFilterFactory

indexing - 基于句子而不是整个字段值构建 Solr 建议

1 回答 1

Related

Reference