我正在尝试构建我的第一个推荐系统,在其中创建用户特征空间,然后将它们聚集到不同的组中。然后为了让推荐适用于特定用户,首先我找出用户所属的集群,然后推荐他/她最近的邻居表现出兴趣的实体(项目)。我正在处理的数据是高维和稀疏的。在实施上述方法之前,有几个问题,他们的答案可能会帮助我采用更好的方法。
由于我的数据是高维和稀疏的,我应该进行降维然后应用聚类,还是应该使用适用于稀疏高维数据的球形 K-means 等算法?
创建用户集群后,我应该如何找到最近的邻居。(我应该采用哪种距离度量,因为我已经读到欧几里得距离不是高维数据的好度量)?