5

我使用 R 的 kmeans 指令在数据集中执行 k-means 算法。我对我要去的一些参数有疑问。结果是:

Cluster means:
  Sepal.Length Sepal.Width Petal.Length Petal.Width
1     5.006000    3.428000     1.462000    0.246000

在那种情况下,集群意味着什么?它是集群内所有对象距离的平均值吗?

同样在最后一部分我有:

Within cluster sum of squares by cluster:
[1] 15.15100 39.82097 23.87947
 (between_SS / total_SS =  88.4 %)

那 88.4% 的值又是什么解释呢?

谢谢

4

1 回答 1

12

聚类意味着组合以在由输入变量定义的多元空间中给出聚类的质心(中心)。因此,您显示的集群 1 的一组均值是该集群的质心(中心)的坐标。它们被计算为分配给该集群的那些样本的每个变量的值的平均值。

88.4 %是由聚类解释的数据集中总方差的度量。k -means 最小化样本的组内分散(传播),即平方和。这使组间分散最大化。通过将样本分配给k个集群而不是n(样本数)集群,平方和减少了 88.4%。

于 2013-01-25T16:21:19.597 回答