7

出于说明目的,我们假设这是一个论坛服务。我需要计算每个用户帖子之间的“相似度”,以便结果类似于:

among posts by user A, similarity 60%
among posts by user B, similarity 20%
...

我正在处理多字节字符串,所以我想我在这里被搜索引擎困住了。我们已经使用 Solr,已经实现了 moreLikeThis,但我不太确定如何构造查询。任何帮助表示赞赏!

4

3 回答 3

1

您可能会对 Carrot2感兴趣(以及与此相关的博客

于 2011-09-15T19:09:15.737 回答
0

奇怪的问题有两种: 1. 为什么要处理 SOLR?2. 相似性的种类取决于目标问题。你的问题对我来说听起来太笼统了。在语义相似性领域正在进行研究。有编辑距离算法,这可能不是你想要的。

所以,更准确地定义你的问题,你会得到更好的答案。

于 2011-07-27T20:30:00.187 回答
0

相似度有多种度量,一种简单有效的方法是余弦相似度。还有更复杂的,如 Smith-Waterman 等,

看看http://sourceforge.net/projects/simmetrics/

于 2011-12-09T05:18:41.533 回答