2

我有一个 MySQL 数据库,里面有几十万个文本文档,我需要对这些文本文件执行搜索。我决定使用 Sphinx 来实现搜索功能。但是,我需要用户能够找到所有不同形式的搜索词。我在 python 中编写了一个能够产生相当准确结果的 lemmatizer,我的问题是:如何将它与 Sphinx 集成?帮助很大。

编辑:由于还没有答案,我想补充一点,“这真的很难”或“它不能完成”之类的评论也将受到重视。如果我的想法有问题,很高兴知道:)

4

1 回答 1

0

我知道这个问题很老,但它仍然在这里,所以......

Sphinx 现在内置了对 lemmatizers 和 stemmers 的支持。lemmatizer 目前有英语、德语和俄语词典。我不确定字典的格式,所以我不确定添加其他语言有多难(尽管词干分析器支持其他几种语言)。

于 2016-01-26T13:11:36.563 回答