我们试图找到项目(以及后来的用户)之间的相似性,其中项目按用户在各种列表中排名(想想Hi Fidelity中的 Rob、Barry 和 Dick )。给定列表中的较低索引意味着较高的评级。
我想一种标准方法是使用 Pearson 相关性,然后以某种方式反转索引。
但是,据我了解,皮尔逊相关性的目的是补偿通常对事物进行更高或更低但具有相似相对评分的用户之间的差异。
在我看来,如果列表是连续的(尽管长度是任意的),那么从该位置隐含的评级将以这种方式倾斜不是问题。
我想在这种情况下,基于欧几里得的相似性就足够了。是这样吗?使用 Pearson 相关性会产生负面影响并找到不合适的相关性吗?哪种相似性度量可能最适合此数据?
此外,虽然我们希望列表中的位置产生影响,但我们不想惩罚相差太远的排名。两个用户都在列表中具有非常不同的排名的项目仍然应该被认为是相似的。