我正在使用协同过滤构建推荐引擎。对于相似度得分,我使用 Pearson 相关性。大多数时候这很好,但有时我的用户只共享 1 或 2 个字段。例如:
User 1{
a: 4
b: 2
}
User 2{
a: 4
b: 3
}
由于这只有 2 个数据点,因此 Pearson 相关性始终为 1(直线或完美相关性)。这显然不是我想要的,那么我应该使用什么值呢?我可以像这样丢弃所有实例(给出 0 的相关性),但我的数据现在非常稀疏,我不想丢失任何东西。是否有任何相似性分数可以与我的其他相似性分数(所有 Pearson)相匹配?