neo4j - 余弦相似度 - 作为推荐引擎的缺点？

Question

我已经看到在 K-Nearest Neighbor 算法中使用余弦相似度来根据用户偏好生成推荐。在这些模型中，给定产品的用户评分被视为向量，然后两个用户之间的相似度由两个向量之间的余弦相似度确定。（例如http://www.neo4j.org/graphgist?8173017）

我的问题是： 任何人都可以解释使用余弦相似度的推荐引擎如何考虑并行用户偏好吗？在我看来，两个用户可以具有完全极性的评分偏好，但如果他们具有平行（但不同）的偏好，则生成的余弦相似度为 1。例如，如果一个用户将 5 部电影评为 1 颗星中的 1 颗星，而另一位用户将相同的 5 部电影评为 10 颗星中的 10 颗星，则他们的余弦相似度将为 1（在我看来，这似乎是一个不准确的衡量标准用户相似性）。

余弦相似度

问题示例：如果我们正在测量两个用户的用户偏好，并且我们正在测量他们对 3 个产品的偏好，我们可以将他们的偏好存储为两个向量：

a =(1,1,1) 和 b=(10,10,10)

然后我们可以使用余弦相似度来衡量它们彼此之间的相似程度。但在这种情况下，它们的余弦相似度将为 1，即使它们代表了截然相反的用户偏好。

score 5 · Accepted Answer

众所周知，香草余弦相似度有一个重要的缺点——没有考虑不同用户之间评分量表的差异。

调整后的余弦相似度通过从每个共同评分对中减去相应的用户平均值来抵消这个缺点。形式上，使用该方案的项目 i 和 j 之间的相似性由下式给出在此处输入图像描述

这R¯u是第 u 个用户评分的平均值。

在您的示例中，经过预处理后， a 和 b 都变为

(0,0,0). // We cannot calculate the cosine similarity since the normalizer is 0.

这在现实中很少见（同样，如果用户对每个项目始终给予相同的评分，则对理解用户或项目没有任何贡献）。

假设我们在每个用户的偏好向量中添加一个其他偏好分数，以使相似度可计算。

a = (1,1,1,2)
b = (10,10,10,8)
a1 = (1,2,2,1)   // a user that has similar preference to a
b1 = (9,8,9,10)  // another user that has similar preference to b
norm_a = a - mean(a) = [-0.25000  -0.25000  -0.25000   0.75000]
norm_b = b - mean(b) = [0.50000   0.50000   0.50000  -1.50000]
norm_a1 = [-0.50000  0.50000  0.50000 -0.50000]
norm_b1 = [0  -1   0   1]

sim(a,b) = norm_a*norm_b / (sqrt(sum(norm_a.^2)) * sqrt(sum(norm_b.^2))) = -1

相似地：

sim(a,a1) = 0.866
sim(b,b1) = -0.82

neo4j - 余弦相似度 - 作为推荐引擎的缺点？

1 回答 1

Related

Reference