3

我有一个表示为 1.0 的大型偏好数据集,我正在使用 Tanimoto Similarity 函数和 Generic Boolean User and Item Preference Recommenders。推荐值通常介于 0 和 1.0 之间。

许多来源,例如 Mahout in Action 书,以及这个先前的 SO 线程推荐 LogLikelihoodSimilarity 度量而不是 Tanimoto 用于布尔数据集。当我切换到 LogLikelihood Similarity 指标时,它产生了一些更高范围内的分数,例如 11。我不得不回到 Tanimoto 以获得更有意义的评级。您能否提出任何潜在的修复建议,还是我误解了推荐项目分数的返回值?

4

1 回答 1

2

在没有评分的情况下,您观察到的值不是预测评分。毕竟都是1.0,不能用来做排名。结果实际上是相似性的总和,这就是它可以任意大的原因。它不应该在 [0,1] 或类似的地方。

于 2012-04-16T18:01:59.850 回答