这个问题是关于 Apache Mahout 的推荐部分,它使用 Pearson 系数来测量用户之间的相似性。根据我的理解,这是皮尔逊系数如何衡量用户之间的相似性。
假设 2 个用户对 5 个项目 a、b、c、d 和 e 进行评分。假设他们的评级是 a1、b1、c1、d1、e1 和 a2、b2、c2、d2、e2。现在,皮尔逊系数给出了考虑点 (a1, a2)、(b1, b2)、(c1, c2)、(d1, d2) 和 (e1, e2) 的最小二乘直线拟合的估计值。我知道这样做的主要目的(基于我在其他地方的阅读)是您想要表示在给定当前用户评分的情况下能够预测其他用户对任何对象的评分的准确性。现在,如果这些点位于一条直线上,则意味着您可以根据当前用户的评分预测其他人的评分。因此,系数将为 1。另一方面,如果点不在直线上,则最小二乘拟合以 -1 到 1 的比例表示,
现在,我的问题是为什么只有直线?例如,为什么我们不能确定它们是否位于抛物线上,然后相应地计算类似的系数(关于抛物线的拟合程度)?为什么我们只检查直线拟合?
谢谢阿布舍克 S