15

Lucene 对俄语的支持很差。

RussianAnalyzer(lucene-contrib 的一部分)质量非常低。

Snowball 的RussianStemmer 模块更糟糕。它不能识别 Unicode 字符串中的俄语文本,显然是假设必须使用 Unicode 和 KOI8-R 的一些奇怪组合。

你知道更好的解决方案吗?

4

5 回答 5

4

我用http://code.google.com/p/russianmorphology/

于 2012-01-19T14:06:15.603 回答
4

我的回答可能为时已晚,但据记录,我发现AOT 项目的分析器比 Lucene 附带的分析器好得多。

于 2010-08-11T14:40:03.953 回答
2

项目http://code.google.com/p/russianmorphology/移至https://github.com/AKuznetsov/russianmorphology。请考虑该项目的新托管。

于 2015-03-20T22:13:25.897 回答
2

如果一切都失败了,请使用Sphinx

于 2008-09-15T18:46:55.313 回答
0

这就是开源的美妙之处。你有源代码,所以如果当前的实现不适合你,你总是可以创建自己的,甚至更好,扩展现有的。“Lucene in Action”一书将是一个好的开始。

于 2008-11-11T10:06:35.347 回答