Lucene 对俄语的支持很差。
RussianAnalyzer(lucene-contrib 的一部分)质量非常低。
Snowball 的RussianStemmer 模块更糟糕。它不能识别 Unicode 字符串中的俄语文本,显然是假设必须使用 Unicode 和 KOI8-R 的一些奇怪组合。
你知道更好的解决方案吗?
Lucene 对俄语的支持很差。
RussianAnalyzer(lucene-contrib 的一部分)质量非常低。
Snowball 的RussianStemmer 模块更糟糕。它不能识别 Unicode 字符串中的俄语文本,显然是假设必须使用 Unicode 和 KOI8-R 的一些奇怪组合。
你知道更好的解决方案吗?
我的回答可能为时已晚,但据记录,我发现AOT 项目的分析器比 Lucene 附带的分析器好得多。
项目http://code.google.com/p/russianmorphology/移至https://github.com/AKuznetsov/russianmorphology。请考虑该项目的新托管。
如果一切都失败了,请使用Sphinx
这就是开源的美妙之处。你有源代码,所以如果当前的实现不适合你,你总是可以创建自己的,甚至更好,扩展现有的。“Lucene in Action”一书将是一个好的开始。