solr - Solr 俄语拼写检查

Question

我正在为俄语使用 solr 拼写检查。当您使用西里尔字符键入时，一切正常，但是当您使用拉丁字符键入时，它就不起作用了。

我希望拼写检查正确，以及何时使用西里尔字符键入以及何时使用拉丁字符键入。并用西里尔字符纠正文本。

For example, when you type:

телевидениеее or televidenieee

It should correct to:

телевидение

架构.xml：

<fieldType name="spell_text" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
        <charFilter class="solr.HTMLStripCharFilterFactory"/>
        <charFilter class="solr.PatternReplaceCharFilterFactory" pattern="[,.;:]" replacement=" "/>
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.PatternReplaceFilterFactory" pattern="'s" replacement=""/>
        <filter class="solr.ShingleFilterFactory" maxShingleSize="2" outputUnigrams="true"/>
        <filter class="solr.LengthFilterFactory" min="3" max="256" />
    </analyzer>
</fieldType>

solrconfig.xml

<searchComponent name="spellcheck" class="solr.SpellCheckComponent">
    <lst name="spellchecker">
        <str name="name">default</str>
        <str name="field">spellcheck</str>
        <str name="classname">solr.IndexBasedSpellChecker</str>
        <str name="buildOnCommit">true</str>
        <str name="buildOnOptimize">true</str>
        <str name="spellcheckIndexDir">./spellchecker</str>
        <str name="accuracy">0.75</str>
    </lst>
    <lst name="spellchecker">
        <str name="name">wordbreak</str>
        <str name="field">spellcheck</str>
        <str name="classname">solr.WordBreakSolrSpellChecker</str>
        <str name="combineWords">false</str>
        <str name="breakWords">true</str>
        <int name="maxChanges">1</int>
    </lst>
</searchComponent>

感谢帮助

score 5 · Accepted Answer

它可以通过ICUTransformFilterFactory来实现，它每次都会（不）音译输入查询。

这是一个示例，说明如何启用此功能：

启用 icu4j amalyzers (lucene-analyzers-icu-*.jar, icu4j-*.jar)：

这些库可以在contrib/analysis-extras官方网站的 solr 分发文件夹中找到（它们也可以通过 maven 获得）。

在 solrconfig.xml 中添加类似这样的内容以启用它们（可以有一个包含您需要的所有 jar 的单个 lib 目录，在此示例中，它仅使用相对于example/solr/collection1/conf官方分发的文件夹的默认位置）：
```
<lib dir="../../../contrib/analysis-extras/lib" regex=".*\.jar" />
<lib dir="../../../contrib/analysis-extras/lucene-libs" regex=".*\.jar" />
```
将 spell_text字段分析器拆分为两个单独的列表，用于索引和查询。

添加solr.ICUTransformFilterFactory作为具有以下 id 的查询分析器Any-Cyrillic; NFD; [^\p{Alnum}] Remove：

<fieldType name="spell_text" class="solr.TextField" positionIncrementGap="100">
  <analyzer type="index">
    <charFilter class="solr.HTMLStripCharFilterFactory"/>
    <charFilter class="solr.PatternReplaceCharFilterFactory" pattern="[,.;:]" replacement=" "/>
    <tokenizer class="solr.WhitespaceTokenizerFactory"/>
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.PatternReplaceFilterFactory" pattern="'s" replacement=""/>
    <filter class="solr.ShingleFilterFactory" maxShingleSize="2" outputUnigrams="true"/>
    <filter class="solr.LengthFilterFactory" min="3" max="256" />
  </analyzer>
  <analyzer type="query">
    <charFilter class="solr.HTMLStripCharFilterFactory"/>
    <charFilter class="solr.PatternReplaceCharFilterFactory" pattern="[,.;:]" replacement=" "/>
    <tokenizer class="solr.WhitespaceTokenizerFactory"/>
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.PatternReplaceFilterFactory" pattern="'s" replacement=""/>
    <filter class="solr.ShingleFilterFactory" maxShingleSize="2" outputUnigrams="true"/>
    <filter class="solr.LengthFilterFactory" min="3" max="256" />

    <filter class="solr.ICUTransformFilterFactory" id="Any-Cyrillic; NFD; [^\p{Alnum}] Remove" />
  </analyzer>
</fieldType>

关于 ICUTransformFilterFactory id - Any-Cyrillic; NFD; [^\p{Alnum}] Remove：

相关的stackoverflow问题
官方指南

上述配置在我的本地机器上运行的方式与俄语音译和俄语单词相同

solr - Solr 俄语拼写检查

1 回答 1

Related

Reference