0

我有一个 last.fm 数据集,由用户给出的歌曲及其标签组成。我想在数据集上应用聚类,以便根据标签查找歌曲聚类。

该数据集有 200k 首歌曲和 119k 个不同的标签。我之前在考虑做一个矩阵 NxM,其中 N 是歌曲的数量,M 是属性的数量,每个位置都是 0 或 1,表示歌曲中是否存在标签。然而,矩阵的巨大维度阻止了我这样做。在应用聚类之前,我有一些关于应用 SVD 来降低维度的想法,但我不知道它是否是最好的方法。

因此,是否有人知道文献中试图进行这种聚类的一些工作?或者我的问题中的任何其他想法?

非常感谢您提前

4

1 回答 1

0

集群可能是解决您的问题的错误工具。

您确定要将数据拆分为(通常)不重叠的块吗?如果需要一些重叠怎么办?比如说,有些歌曲既是“嘻哈”又是“驾驶节拍”,但这些标签不是同义词?

频繁项集挖掘(购物篮分析)

更适用,不是吗?

在这些交易中,将每首歌曲视为“购物篮”,将每个标签视为“物品”。FIM 将识别频繁的标签组合,并从中得出模式。

于 2015-05-24T07:01:23.457 回答