0

我想我了解 kmeans 算法的工作原理,但是我在用我的数据将其建模成一种格式时遇到了很多麻烦。

我正在寻找一种方法来根据我的输入获得最相似的游戏。

例子:

 Original_Game has n Similar_Games.  Similar_Games has n Genres, Themes, Tropes. 
 Original_Game1 has n Similar_Games.  Similar_Games has n Genres, Themes, Tropes.

我在想 kmeans 可以告诉我哪些 Similar_Games 与 Original_Game 和 Original_Game1 最相似。但我不知道如何在二维图上组织这些数据,如果我不清楚,请告诉我。

4

1 回答 1

0

您只能对以下数据使用 k-means:

  • 可以合理地用数字表示
  • 不是过于离散(不要在二进制向量上运行 k-means!)
  • 其中所有尺寸的含义大致相同(即 x 轴上 1 厘米,y 轴上约 1 厘米)
  • 您可以在哪里计算均值
  • 其中均值减小方差,否则可能不会收敛

K-means 很容易理解,但不适用于任意数据。

您可以通过例如使用 k-medoids / 围绕 medoids (PAM) 分区来减少其中一些限制。这是一个密切相关的算法,它消除了大多数这些限制,但代价是通常要慢得多。

于 2012-06-17T11:54:36.990 回答