2

我正在尝试使多语言词干与 Solr 一起工作。我已经LangDetectLanguageIdentifierUpdateProcessorFactory按照官方 Solr 指南设置了语言检测。该语言已被识别,现在我有一大堆动态字段,例如:

  • 描述_zh
  • 描述_de
  • description_fr
  • ...

哪些是适当的词干。

现在的问题是如何在这么多领域进行搜索?每次进行长查询以搜索数十种可能的语言字段似乎不是一个明智的选择。我试过使用copyField像:

<copyField source="description_*" dest="text"/>

text但是当我这样做时,词干正在消失。

text字段定义solr.TextFieldsolr.WhitespaceTokenizerFactory。也许我没有text正确设置字段或者应该如何完成?

4

1 回答 1

0

您有多种选择:

  1. 搜索您提到的所有字段。总会有一些开销:你使用的字段越多,搜索就越慢(逐渐)

  2. 尝试识别查询语言并仅搜索必要的字段:例如已识别和一些默认字段。在这里你可以找到这个库

  3. 根据 Trey Graigner的说法,在一个领域开发具有多种语言的定制解决方案,这是可能的并且可以在生产中工作

这个问题有点老了,但也许这个答案会帮助其他人。

于 2016-01-18T10:38:33.223 回答