0

我们需要让 Solr Search 像

"Success & Failure"
"Working 50%"

但是 Solr 查询解析器会从搜索中消除所有特殊字符,尽管如果我向它添加转义序列。

我的搜索查询如下所述

http://localhost:8080/solr/core0/select?q=%22Success%20\%26%20Failure%22&debugQuery=on

下面是它的调试查询。

<lst name="debug">
   <str name="rawquerystring">"Success & Failure"</str>
   <str name="querystring">Success & Failure"</str>
   <str name="parsedquery">PhraseQuery(text:"success failure")</str>
   <str name="parsedquery_toString">text:"success failure"</str>
   <lst name="explain"/>
    <str name="QParser">LuceneQParser</str>
    <lst name="timing"></lst>
 </lst>

我在网上搜索过这个,我得到的结果说应该索引特殊字符以使其工作,因为默认情况下 solr 不索引任何特殊字符。

为此,我已添加solr.WordDelimiterFilterFactory到我的TextField定义中

<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
     <!--   <charFilter class="solr.MappingCharFilterFactory" mapping="char-mapping.txt"/>-->
        <tokenizer class="solr.StandardTokenizerFactory"/>
        <filter class="solr.WordDelimiterFilterFactory"
                splitOnCaseChange="0"
                splitOnNumerics="0"
                stemEnglishPossessive="0"
                generateWordParts="0"
                generateNumberParts="0"
                catenateWords="0"
                catenateNumbers="0"
                catenateAll="0"
                preserveOriginal="1"
                types="wdfftypes.txt"
                />
       <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="false" />
        <filter class="solr.LowerCaseFilterFactory"/>
      </analyzer>
      <analyzer type="query">
        <tokenizer class="solr.StandardTokenizerFactory"/>
        <filter class="solr.WordDelimiterFilterFactory"
                splitOnCaseChange="0"
                splitOnNumerics="0"
                stemEnglishPossessive="0"
                generateWordParts="0"
                generateNumberParts="0"
                catenateWords="0"
                catenateNumbers="0"
                catenateAll="0"
                preserveOriginal="1"
                types="wdfftypes.txt"
                />
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="false" />
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
        <filter class="solr.LowerCaseFilterFactory"/>
      </analyzer>
    </fieldType>

althohg 这样做,它不会&在搜索词中解析。

我们要做的是,solr 应该用“success & failure”搜索,不应该排除特殊字符。

任何人有任何想法,如何做到这一点?

4

1 回答 1

1

您应该考虑使用 solr.WhitespaceTokenizerFactory 而不是 solr.StandardTokenizerFactory,因为 StandardTokenizer 使用特殊字符作为单词边界。在这种情况下,当您希望将文本拆分为单词时,您需要开始思考。

此外,您使用的 WordDelimiterFilterFactory 可能会过滤掉这个字符。为了防止它这样做,您应该能够根据这个问题“如何在 Solr 中找到包含数字和美元符号的文档? ”在您的类型定义中将 & 定义为 ALPHA。

该定义在您的 solr.WordDelimiterFilterFactory 声明中由types="wdfftypes.txt"表示的文件中给出。

& => 阿尔法

进一步阅读如何制作这个文件

于 2013-04-12T06:27:27.243 回答