3

我正在做一个需要实现文章/新闻推荐引擎的项目。我正在考虑组合不同的方法(基于项目、基于用户、模型 CF),并且对要使用的工具有疑问。

从我的研究来看,Lucene 绝对是文本处理的工具,但对于推荐部分,它不是很清楚。如果我想在基于文本相似性的文章上实现项目 CF: - 我已经看到使用 Mahout 和 solr 的案例研究(http://fr.slideshare.net/lucenerevolution/building-a-realtime-solrpowered-recommendation-引擎),因为它真的很接近搜索问题,所以我认为 solr 可能更好,对吗?- 这两种工具在时间处理方面有什么区别(我认为 Mahout 更多的是批处理和 solr 实时)?- 我可以直接从 Lucene 获得文本距离吗(我不太清楚 solr 与 Lucene 相比的附加值是多少)?- 对于更高级的方法(基于矩阵分解的模型),我会使用 Mahout,但 solr 中是否有任何类似 SVD 的功能用于概念/标签发现?

谢谢你的帮助。

4

1 回答 1

0

这取决于您的要求,如果您只需要离线推荐功能,mahout 很好。对于在线,我也在测试它。事实上,我已经用 lucene 和 mahout 进行了测试,它们可以很好地协同工作。对于 solr,我不太确定,我只知道它使用 lucene 作为其核心。所以所有繁重的工作仍然由lucene完成。就我而言,我在我的 java 程序中结合了 mahout 和 lucene,基本上 lucene 进行预处理和原始相似度计算,然后将结果发送到 mahout 进行进一步分析。

于 2014-02-24T05:52:48.243 回答