0

在我们的 SOLR 实现中,我们使用分组/字段折叠来确保预先输入的结果是唯一的。我们的内容可能具有相同的显示词,但它们背后的代码不同(涉及多个字段)。

在大多数情况下,这工作正常。我们分组的字段是一个标准的 StrField。但是,当显示项在不同的情况下(即:solr 与 SOLR)时,这种情况就会分崩离析。

如何使分组不区分大小写?另一个问题是我们不想将字符串标记为多个单词。例如:

这些术语是“SOLR 岩石”、“SOLR 岩石”和“SOLR 很棒”。搜索 SOLR 的结果应该是“SOLR 岩石”和“SOLR 很棒”。如果流被标记化,那么所有三个将被组合在一起。

谢谢

4

1 回答 1

1

使用非标记化的小写字符串字段进行分组。
这应该确保分组不区分大小写。

例如字段类型配置

<fieldType name="lowercase" class="solr.TextField" positionIncrementGap="100">
  <analyzer>
    <tokenizer class="solr.KeywordTokenizerFactory"/>
    <filter class="solr.LowerCaseFilterFactory" />
  </analyzer>
</fieldType>
于 2013-09-04T03:57:26.317 回答