有没有一种方法可以在索引时对字段使用词干提取,然后在查询时根据词干词的原始出现频率检索词干词的排序列表。
例如,假设我的“文本”字段包含文档内容并且仅包含以下单词:
走走走动跑跑。
我想在这个字段上使用词干来获取按其原始单词的出现排序的基本形式,即
走走走走
我的理解是 solr 使用词干来减少步行,步行和步行到一种基本形式步行,然后将其存储在索引中。我对检索计数不感兴趣,而只是检索单词列表。solr 是否在索引时跟踪此类字数?这是我的配置:
我的schema.xml有文本字段:
<field name="text" type="text_general" indexed="true" stored="true" multiValued="true" />
和
字段类型“text_general”定义为:
<fieldType class="solr.TextField" name="text_general" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>
<filter class="solr.PorterStemFilterFactory"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>
<filter class="solr.SynonymFilterFactory" expand="true" ignoreCase="true" synonyms="synonyms.txt"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>
感谢帮助。