3

我将 Mahout 与 Pearson Correlation 算法结合使用,根据他们对多个项目的偏好来比较和查找相似用户。我遇到的问题是 Mahout 和/或 Pearson 忽略了为每个项目选择相同偏好的用户。有谁知道是否有办法将 Mahout 配置为不忽略为每个项目选择相同偏好值的人。

4

1 回答 1

6

这不是配置问题。在这种情况下,Pearson 相关性是未定义的,因此使用该度量不能计算它们之间的相似性。

本质上——皮尔逊是两个偏好系列的协方差与其标准差乘积的比率。但是当一个或两个序列相同时,标准差为 0,协方差也为 0,因此相关性为 0/0。

(这和其他一些 Pearson 陷阱在Mahout in Action的第 4 章中有介绍,我是本书这部分和代码的作者。)

于 2011-10-14T21:19:45.933 回答