machine-learning - 如何衡量回答相同问题的用户之间的相似性

Question

我正在开发一个向用户推荐内容的项目。我想从每个用户创建一个配置文件，以便我可以对它们进行聚类并提供共同的建议，但在我必须能够衡量这些用户之间的相似性之前。我曾想过一份可以使用模糊标签填写的问卷。

我的问题是如何测量回答此类问题的两个用户 U1 和 U2 的相关性（相似性）？

我曾想过将答案转换为数值，然后尝试计算皮尔逊相关系数。但我想知道是否有更优雅的方法可以做到这一点。

score 2 · Accepted Answer

将数值（来自提供的答案）转换为一个向量然后应用余弦相似度函数会很有用。余弦相似度已被证明比皮尔逊相关系数更可靠（并且更快）。

然而，这不是一个小问题，实施可能非常具有挑战性。

1 回答 1