8

任何人都可以解释 WEKA 中 K-Means 聚类的输出实际上意味着什么。

例如

kMeans


Number of iterations: 9

Within cluster sum of squared errors: 9434.911100488926

Missing values globally replaced with mean/mode

Cluster centroids:

                  Cluster#
Attribute         Full Data          0          1                           
                      (400)      (310)       (90)
=================================================
competency134        0.0425     0.0548          0  
competency207        0.0425     0.0548          0  
competency263          0.01     0.0129          0  
competency264          0.01     0.0129          0  
competency282          0.01     0.0129          0  
competency289          0.01     0.0129          0  

列中的数字实际上是什么意思,它表示表格上方的聚类质心,但是如何确定两个聚类的质心是什么?

如果有人能解释这些数字的含义,我将不胜感激。

如果有人对如何完成对发现的集群的轮廓评估有任何想法,那也很棒。

谢谢

4

4 回答 4

4

只是第一步,

  1. 将可视化选项卡中的绘图保存为 arff 文件。

  2. 用weka打开,点击edit,你会自动看到每个实例属于哪个集群。

  3. 将此表复制到 excel 中(更容易可视化)

  4. 使用excel或matlab查找轮廓、凝聚力、分离度的经典方法。

于 2013-01-13T02:39:02.127 回答
4

第一列为您提供总体人口中心。第二列和第三列分别为您提供集群 0 和 1 的质心。每行给出特定维度的质心坐标。

我相信你需要复习你的K-means。寻找质心是算法的重要组成部分。质心是算法特定运行的结果,并且不是唯一的 - 不同的运行可能会生成不同的质心集。

有关更多详细信息,请参阅Michael Abernethy 对 Weka 聚类的描述

于 2011-05-16T07:18:59.360 回答
0

首先聚类是一种描述性统计方法。二、算法Kmeans需要事先输入簇数,找到最优的簇数,几种统计方法。第三,数值数据的质心是构成聚类的数据的算术平均值。所以这些数据代表了组数据。

于 2014-08-17T01:59:03.097 回答
-1

如果属性是名义属性,则使用集群中属性的最频繁值。如果属性是数字,则使用集群中属性的平均值。检查此链接以获取更多详细信息。

于 2012-03-30T09:25:24.827 回答