2

我们有一个应用程序可以获取不同语言的文本。我们的目标是理解文本的语言,对每种语言使用不同的词干分析器对其进行分析并对其进行索引。我能够使用Solr 的语言检测机制检测语言。

现在,我想使用每种语言的不同 fieldType 动态分析文本,并将每个文本存储在不同的字段中。

例如,假设我在schema.xml.

<!-- English -->
<field name="text_en" type="text_en" indexed="true" stored="true"/>

<!-- German -->
<field name="text_de" type="text_de" indexed="true" stored="true"/>

<!-- Turkish -->
<field name="text_tr" type="text_tr" indexed="true" stored="true"/>

当我检测到文本是英文时,我想将其动态添加到text_en将使用与其他技术不同的技术进行分析/提取的字段中。

Solr 上是否有支持这一点的内置机制?如果是,我该如何配置它?或者我应该为此目的开发插件吗?

4

1 回答 1

2

请看一下语言检测参数 对我来说,首先您必须使用默认值或覆盖映射以将语言映射到一个字段,其中语言字母代码(如 en、de、... .) 是字段名称的一部分。

看看这个:

http://alisalimi25.blogspot.de/2012/07/phonetic-search-and-language-detection.html

...广告示例看起来将填充字段:title_na,title_da,...

抱歉,我不是 100% 确定,但这是我解释文档的方式。

于 2012-12-21T14:05:17.487 回答