math - Pearson 在 Apache Mahout 中的系数背后的动机是什么

Question

这个问题是关于 Apache Mahout 的推荐部分，它使用 Pearson 系数来测量用户之间的相似性。根据我的理解，这是皮尔逊系数如何衡量用户之间的相似性。

假设 2 个用户对 5 个项目 a、b、c、d 和 e 进行评分。假设他们的评级是 a1、b1、c1、d1、e1 和 a2、b2、c2、d2、e2。现在，皮尔逊系数给出了考虑点 (a1, a2)、(b1, b2)、(c1, c2)、(d1, d2) 和 (e1, e2) 的最小二乘直线拟合的估计值。我知道这样做的主要目的（基于我在其他地方的阅读）是您想要表示在给定当前用户评分的情况下能够预测其他用户对任何对象的评分的准确性。现在，如果这些点位于一条直线上，则意味着您可以根据当前用户的评分预测其他人的评分。因此，系数将为 1。另一方面，如果点不在直线上，则最小二乘拟合以 -1 到 1 的比例表示，

现在，我的问题是为什么只有直线？例如，为什么我们不能确定它们是否位于抛物线上，然后相应地计算类似的系数（关于抛物线的拟合程度）？为什么我们只检查直线拟合？

谢谢阿布舍克 S

score 1 · Accepted Answer

这就是皮尔逊相关系数的定义方式。

这是一种可能的相似性度量，它确实衡量了两组偏好按比例移动的程度。如果您认为此假设适用于您的数据集，那么它将是一个合理的指标。如果没有，您将使用另一个指标。

当然，您可以实现一个相似性度量，以其他方式定义相似性。

但是，在实践中，为什么另一种关系在这里有意义呢？相似性应该是对称的，两组偏好不能各自与对方的平方成正比。我认为共同的线性关系是合理的寻找。

当然，还有很多其他的相似性指标，可以说更好，与评估这样的关系无关，比如对数似然比。

math - Pearson 在 Apache Mahout 中的系数背后的动机是什么

1 回答 1

Related

Reference