我们有一个 solr 构建,目前仅使用英语,我们需要为其添加阿拉伯语支持 Solr Wiki 中没有太多关于如何开始的详细信息
这些是我做的以下步骤
将以下内容添加到schema.xml
<fieldType name="text_general_arabic" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.ArabicNormalizationFilterFactory"/>
<filter class="solr.ArabicStemFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.ArabicNormalizationFilterFactory"/>
<filter class="solr.ArabicStemFilterFactory"/>
</analyzer>
</fieldType>
在Schema.xml中定义了一个字段
<field name="البرتغالية" type="text_general_arabic" indexed="true" stored="true"/>
仅供参考,我从浏览器中的谷歌翻译复制了阿拉伯语文本并粘贴了它
后来我使用记事本作为 unicode 文件创建了一个 csv 文件,并将其保存为 Arabic.csv,其字段名称为
البرتغالية
当我尝试使用以下 cURL 命令索引文件时
D:\>curl http://localhost:8080/solr/coll9/update/csv -F "stream.file=D:\Arabic.csv" -F "commit=true" -F "optimize=true"
-F "encapsulate="" -F "keepEmpty=true"
我收到一个未定义的字段错误我不知道我在哪里做错了
更新:当我用 XML 文件而不是 csv 文件尝试同样的事情时,它正在工作