我有一个 last.fm 数据集,由用户给出的歌曲及其标签组成。我想在数据集上应用聚类,以便根据标签查找歌曲聚类。
该数据集有 200k 首歌曲和 119k 个不同的标签。我之前在考虑做一个矩阵 NxM,其中 N 是歌曲的数量,M 是属性的数量,每个位置都是 0 或 1,表示歌曲中是否存在标签。然而,矩阵的巨大维度阻止了我这样做。在应用聚类之前,我有一些关于应用 SVD 来降低维度的想法,但我不知道它是否是最好的方法。
因此,是否有人知道文献中试图进行这种聚类的一些工作?或者我的问题中的任何其他想法?
非常感谢您提前