我正在尝试向我的 RoR 应用程序添加全文搜索功能,但在涉及阿拉伯语时遇到了一些问题。AFAIK,支持阿拉伯语词干提取、形态学和其他高级全文搜索的搜索引擎并不多。我发现的唯一东西是带有 AraMorph 标记器的 Lucene。
acts_as_solr 插件(solr 是基于 lucene 的,这个插件与 Rails 集成)似乎被放弃了,我找不到任何有用的文档。
我研究过 sphinx、xapian、ferret 和acts_as_searchable,但据我所知,它们都没有提供高级阿拉伯语搜索功能。
任何帮助将非常感激
== 更新
我有使用 sphinx 的建议,而且我确实在早期的项目中使用过它,它工作得很好。但是,它不提供任何高级搜索功能。
例如,单词:كتاب(书)、مكتبة(图书馆)和كاتب(作家)都来自同一个词干كتب。我希望能够搜索“作家”并获得来自同一词干的所有单词的结果。
另外,我希望搜索考虑到常见的阿拉伯语听写风格。有些人使用“hamza”(همزة),有些人不使用。其他人用字母“taa marboota”(التاء المربوطة)写单词,而其他人则使用字母“haa”(الهاء)。一个好的阿拉伯语搜索引擎应该意识到这些细微的差异并寻找它们。
使用 sphinx,您只会得到您搜索的内容,而我发现的唯一一个可以在阿拉伯语中处理此类问题的引擎是带有 AraMorph 分词器的 Lucene。但是,acts_as_solr(rails 的 lucene 插件)被放弃了。所以我的问题是:对于任何搜索引擎,还有其他这样的标记器吗?
KandadaBoggu 提到了黑子,我会试一试,然后回复