0

我正在使用带有 Solr 的 nutch 来开发阿拉伯语文本的搜索引擎。我需要在我的阿拉伯语文本上实现一个词干分析器,在 Solr Stemmer 上进行搜索时,我发现它提供了这两个过滤器

<filter class="solr.ArabicNormalizationFilterFactory"/>

<filter class="solr.ArabicStemFilterFactory"/>

我试过了,但不明白他们做了什么..所以请任何人都可以帮我举一些例子吗?

并做到这两个做到这一点:

العملات 词根为 عملة

البسَاتِين ، بساتينكم 词根为 بستان

谢谢你。

4

1 回答 1

1

你可以在这里找到一些细节:http: //lucene.apache.org/core/3_6_0/api/contrib-analyzers/org/apache/lucene/analysis/ar/ArabicStemmer.html

说的是:

词干定义为:

  • 删除附加的定冠词、连词和介词。
  • 常见后缀的词干。
于 2012-05-22T00:00:43.470 回答