tags - Lastfm 数据库中的标签聚类

Question

我有一个 last.fm 数据集，由用户给出的歌曲及其标签组成。我想在数据集上应用聚类，以便根据标签查找歌曲聚类。

该数据集有 200k 首歌曲和 119k 个不同的标签。我之前在考虑做一个矩阵 NxM，其中 N 是歌曲的数量，M 是属性的数量，每个位置都是 0 或 1，表示歌曲中是否存在标签。然而，矩阵的巨大维度阻止了我这样做。在应用聚类之前，我有一些关于应用 SVD 来降低维度的想法，但我不知道它是否是最好的方法。

因此，是否有人知道文献中试图进行这种聚类的一些工作？或者我的问题中的任何其他想法？

非常感谢您提前

score 0 · Accepted Answer

集群可能是解决您的问题的错误工具。

您确定要将数据拆分为（通常）不重叠的块吗？如果需要一些重叠怎么办？比如说，有些歌曲既是“嘻哈”又是“驾驶节拍”，但这些标签不是同义词？

频繁项集挖掘（购物篮分析）

更适用，不是吗？

在这些交易中，将每首歌曲视为“购物篮”，将每个标签视为“物品”。FIM 将识别频繁的标签组合，并从中得出模式。

tags - Lastfm 数据库中的标签聚类

1 回答 1

集群可能是解决您的问题的错误工具。

频繁项集挖掘（购物篮分析）

Related

Reference