我正在尝试将聚类算法应用于我的数据集。我的数据集是电影,一些属性是名义上的。例如:
movie 1:
[
IMDB popularity: 1.02
Genre: Drama
Sub-genre: Horror
Rating: 1.23%
]
movie 2:
[
IMDB popularity: 2.08
Genre: Comedy
Sub-genre: Animation
Rating: 0.72%
]
etc. etc.
我可以应用类似于 K-means 的东西吗?K-means 适用于距离,例如,如果我将“戏剧”标记为 0,将“恐怖”标记为 1,将“喜剧”标记为 2,将“动画”标记为 3——那么我实际上要说的是,例如“戏剧”与“恐怖”的关系比“喜剧”更密切(对于这个例子,它可能在某种程度上接近现实,但对于一般情况,很难将单词标记为数字并保持真实的比率。任何已知的解决这个问题的算法?