2

我正在尝试构建我的第一个推荐系统,在其中创建用户特征空间,然后将它们聚集到不同的组中。然后为了让推荐适用于特定用户,首先我找出用户所属的集群,然后推荐他/她最近的邻居表现出兴趣的实体(项目)。我正在处理的数据是高维和稀疏的。在实施上述方法之前,有几个问题,他们的答案可能会帮助我采用更好的方法。

  1. 由于我的数据是高维和稀疏的,我应该进行降维然后应用聚类,还是应该使用适用于稀疏高维数据的球形 K-means 等算法?

  2. 创建用户集群后,我应该如何找到最近的邻居。(我应该采用哪种距离度量,因为我已经读到欧几里得距离不是高维数据的好度量)?

4

1 回答 1

1

聚类在这里是正确的算法并不明显。聚类非常适合数据探索和分析,但并不总是适合预测。如果您的最终产品基于“类似用户组”的概念以及他们共享的项目,那么继续进行聚类并简单地呈现每个用户的集群已消费的项目的排名列表(或加权平均评分,如果您有偏好信息)。

您可以尝试在稀疏高维情况下工作的标准推荐算法,例如项目-项目协同过滤或稀疏 SVD。

于 2017-01-23T22:14:22.787 回答