我正在建立一个 Solr 搜索引擎,它将索引多种语言。我创建了一个自定义 UpdateProcessorFactory 来确定输入文本的哪些部分是哪种语言,然后我将文档的这些部分复制到特定于语言的字段中。例如,使用此文本:
“你好世界,你好世界,你好世界。”
它将“Hello World”复制到 en-text 字段中,将“Bonjour le Monde”复制到 fr-text 字段中,并将“Hallo Welt”复制到 de-text 字段中。每个字段都有适当的语言分析器来标记和词干单词。
最后,我希望有一个框供用户输入可以搜索所有语言的搜索词。搜索词不需要翻译,但应该适当地词干。实现这一目标的最佳方法是什么?我也非常关心搜索的性能。