我正在考虑在我的 Solr 安装中添加语义分析,但我不知道从哪里开始。
基本上,我希望 Solr 能够找到“相似”的单词(取自索引文档的正文)。例如,如果我搜索“音乐”,我应该能够查询语义引擎并获得“摇滚”、“流行”等(当然如果这些词在某些索引文档中出现在音乐附近)。
我找到了这个项目,但我不知道它是否是正确的起点: http ://code.google.com/p/semanticvectors/
我正在考虑在我的 Solr 安装中添加语义分析,但我不知道从哪里开始。
基本上,我希望 Solr 能够找到“相似”的单词(取自索引文档的正文)。例如,如果我搜索“音乐”,我应该能够查询语义引擎并获得“摇滚”、“流行”等(当然如果这些词在某些索引文档中出现在音乐附近)。
我找到了这个项目,但我不知道它是否是正确的起点: http ://code.google.com/p/semanticvectors/
语义索引是一个很好的起点。然而,根据我的经验,这些技术在实践中并不能很好地发挥作用。你经常会得到非常奇怪的结果。此外,由于谷歌,人们对关键字搜索应该如何表现有一定的期望 - 即您的搜索词应该出现在匹配的文档中。
您可以使用Lucene Wordnet contrib 包来查找同义词。
在 Lucene 和 Solr 中优化 Findability提供了其他扩展查询的方法。