我在 Solr/Lucene (3.x) 中有一个带有特殊复制字段 facet_headline 的文档,以便为分面提供一个未提取的字段。
有时 2 个或多个单词属于一起,这应该被视为一个单词,例如“kim jong il”。
所以标题“星期六:金正日去世”应该拆分为:
Saturday
kim jong il
had
died
出于这个原因,我决定使用受保护的词(protwords),我在其中添加kim jong il
. schema.xml
外观是这样的。
<fieldType name="facet_headline" class="solr.TextField" omitNorms="true">
<analyzer>
<tokenizer class="solr.PatternTokenizerFactory" pattern="\?|\!|\.|\:|\;|\,|\"|\(|\)|\\|\+|\*|<|>|([0-31]+\.)" />
<filter class="solr.WordDelimiterFilterFactory" splitOnNumerics="0"
protected="protwords.txt" />
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.TrimFilterFactory"/>
<filter class="solr.StopFilterFactory"
ignoreCase="true"
words="stopwords.txt"
enablePositionIncrements="true"
/>
</analyzer>
</fieldType>
使用 solr 分析,它看起来不起作用!该字符串仍被拆分为 6 个单词。看起来 protword.txt 没有使用,但如果标题仅包含名称:kim jong il
一切正常,术语不会拆分。
有没有办法达到我的目标:不拆分特定的单词/单词组?