0

我正在尝试将聚类算法应用于我的数据集。我的数据集是电影,一些属性是名义上的。例如:

movie 1:
[
IMDB popularity: 1.02
Genre: Drama
Sub-genre: Horror
Rating: 1.23%
]

movie 2:
[
IMDB popularity: 2.08
Genre: Comedy
Sub-genre: Animation
Rating: 0.72%
]

etc. etc.

我可以应用类似于 K-means 的东西吗?K-means 适用于距离,例如,如果我将“戏剧”标记为 0,将“恐怖”标记为 1,将“喜剧”标记为 2,将“动画”标记为 3——那么我实际上要说的是,例如“戏剧”与“恐怖”的关系比“喜剧”更密切(对于这个例子,它可能在某种程度上接近现实,但对于一般情况,很难将单词标记为数字并保持真实的比率。任何已知的解决这个问题的算法?

4

1 回答 1

0

针对您的特定问题的传统统计解决方案是将值编码为不同的变量:

  • 是霍罗
  • 是喜剧。. .

然后你可以对结果运行 k-means。

我要发表两条评论。首先,确保以某种方式对值进行标准化(标准化或标准化主成分是两种典型方法)。

我更喜欢期望最大化聚类,它是 k-means 的连续变体,因为它通常会产生更好的结果。

于 2016-01-17T14:22:06.667 回答