algorithm - 聚类名义数据

Question

我正在尝试将聚类算法应用于我的数据集。我的数据集是电影，一些属性是名义上的。例如：

movie 1:
[
IMDB popularity: 1.02
Genre: Drama
Sub-genre: Horror
Rating: 1.23%
]

movie 2:
[
IMDB popularity: 2.08
Genre: Comedy
Sub-genre: Animation
Rating: 0.72%
]

etc. etc.

我可以应用类似于 K-means 的东西吗？K-means 适用于距离，例如，如果我将“戏剧”标记为 0，将“恐怖”标记为 1，将“喜剧”标记为 2，将“动画”标记为 3——那么我实际上要说的是，例如“戏剧”与“恐怖”的关系比“喜剧”更密切（对于这个例子，它可能在某种程度上接近现实，但对于一般情况，很难将单词标记为数字并保持真实的比率。任何已知的解决这个问题的算法？

score 0 · Accepted Answer

针对您的特定问题的传统统计解决方案是将值编码为不同的变量：

是霍罗
是喜剧。. .

然后你可以对结果运行 k-means。

我要发表两条评论。首先，确保以某种方式对值进行标准化（标准化或标准化主成分是两种典型方法）。

我更喜欢期望最大化聚类，它是 k-means 的连续变体，因为它通常会产生更好的结果。

algorithm - 聚类名义数据

1 回答 1

Related

Reference