1

我正在使用 weka 进行 K-means 聚类,当我尝试了一个小集合并发现聚类内的平方误差和 (WCSS) 值不是我想的那样。

我认为 WCSS 是所有元素到它的集群中心的平方距离之和,但值不正确:

例如:数据集是:

3.0, 2.0, 3.0, 0.0, 0.0, 2.0, 1.0, 0.0, 1.0
4.0, 1.0, 3.0, 0.0, 1.0, 0.0, 1.0, 4.0, 1.0
4.0, 1.0, 7.0, 0.0, 1.0, 1.0, 0.0, 1.0, 1.0
3.0, 2.0, 7.0, 0.0, 0.0, 2.0, 1.0, 1.0, 0.0
3.0, 2.0, 6.0, 1.0, 0.0, 1.0, 0.0, 2.0, 1.0
4.0, 2.0, 5.0, 1.0, 1.0, 1.0, 1.0, 0.0, 0.0
4.0, 1.0, 8.0, 0.0, 1.0, 2.0, 0.0, 0.0, 1.0
3.0, 2.0, 2.0, 0.0, 1.0, 1.0, 0.0, 0.0, 1.0
3.0, 2.0, 0.0, 0.0, 1.0, 1.0, 1.0, 3.0, 1.0

并且集群(只有一个)中心是3, 2, 3, 0, 1, 1, 1, 0, 1

weka 输出的 WCSS 是 39,但根据我的理解,应该是133. 我知道我对 WCSS 的含义一定是错的,有人可以告诉我吗?

4

2 回答 2

1

我相信报告的是属性值标准化后的 WCSS。不幸的是,我无法复制您的结果。

但是,将您的数据集与 SimpleKMeans (k=1) 一起使用,我得到了以下结果:

  • 在规范化属性值之前,WCSS 为 26.4375
  • 归一化属性值后,WCSS 为 26.4375

来源还表明 Weka 的 K-means 算法会自动对属性值进行归一化。

于 2013-10-14T13:15:14.707 回答
0

@关系癌症

@属性 a1{1,2,3,4,5,6}

@属性 a2{0,1,2}

@attribute a3{0,1,2,3,4,5,6,7,8,9,10}

@attribute a4{0,1,2,3,4,5,8}

@attribute a5{0,1}

@attribute a6{0,1,2}

@属性 a7{0,1}

@attribute a8{0,1,2,3,4}

@attribute a9{0,1}

@属性标签{0,1}

@数据

3,2,3,0,0,2,1,0,1,1

4,1,3,0,1,0,1,4,1,0

4,1,7,0,1,1,0,1,1,1

3,2,7,0,0,2,1,1,0,0

3,2,6,1,0,1,0,2,1,1

4,2,5,1,1,1,1,0,0,0

4,1,8,0,1,2,0,0,1,0

3,2,2,0,1,1,0,0,1,0

3,2,0,0,1,1,1,3,1,0

于 2013-10-15T07:36:46.730 回答