我最近在我的 django 网站中添加了搜索功能,允许雇主使用关键字搜索员工。当用户最初上传他们的简历时,我将其转换为文本,去掉停用词,然后将文本添加到该用户的 TextField 中。我将 Django-Haystack 与 Whoosh 搜索引擎一起使用。
三件事-
1) 除了我可能不会使用的额外功能之外,切换到 Solr 或 Xapian 是否有任何具体优势?
2)在将简历转换为文本时,我基本上是自己为 pdf 编制索引。我知道 Xapian 和 Solr 都支持 .pdf 索引,但是从外观上看,Haystack 不支持。关于如何解决这个问题的任何提示?还是我应该自己继续索引它?如果是这样,我应该做的不仅仅是提供关键字的文本文件吗?
3) Whoosh 仅在关键字与自身完全匹配时才返回结果。如果用户将“数学”作为他的关键字,并且我搜索“数学”,我希望该用户出现。我无法确定 Xapian 或 Solr 是否支持这一点。想法?
感谢您的任何建议。我将暂时继续深入研究这个问题。