我正在做一个需要实现文章/新闻推荐引擎的项目。我正在考虑组合不同的方法(基于项目、基于用户、模型 CF),并且对要使用的工具有疑问。
从我的研究来看,Lucene 绝对是文本处理的工具,但对于推荐部分,它不是很清楚。如果我想在基于文本相似性的文章上实现项目 CF: - 我已经看到使用 Mahout 和 solr 的案例研究(http://fr.slideshare.net/lucenerevolution/building-a-realtime-solrpowered-recommendation-引擎),因为它真的很接近搜索问题,所以我认为 solr 可能更好,对吗?- 这两种工具在时间处理方面有什么区别(我认为 Mahout 更多的是批处理和 solr 实时)?- 我可以直接从 Lucene 获得文本距离吗(我不太清楚 solr 与 Lucene 相比的附加值是多少)?- 对于更高级的方法(基于矩阵分解的模型),我会使用 Mahout,但 solr 中是否有任何类似 SVD 的功能用于概念/标签发现?
谢谢你的帮助。