1

所以我试图弄清楚如何解释/分析我拥有的这个聚类输出。我有 50 个文件夹,分别称为 clusters-0、clusters-1、clusters-2 等。这是因为我在命令中说了“-k 50”。我以为这些文件夹每个都包含一个集群,但现在我不确定。

使用“--help”kmeans 表示“-cl”开关将:“如果存在,在迭代发生后运行集群。”

那么,这是否意味着您需要使用“-cl”才能真正发生集群?

如果不使用“-cl”,那么所有这 50 个文件夹是否只是 k-means 算法输出的迭代,并且它不会产生实际具有clusters的输出。

这些文件夹中的每一个是否都包含 50 个簇,而最后一个是最好、最精致的一组簇?

4

1 回答 1

2

关于 Mahout Kmeans 生成的文件夹结构:

/clusters - 包含集群的初始质心,基于这些点,为每个单独的数据点找到距离测量值。

/output/clusterPoints - 包含序列文件,它具有集群 id 和用于(键、值)格式的集群的数据。

/output/clusters-* - 这些文件夹中的每一个都包含有关每次迭代新计算的集群质心的数据。

/output/clusters-*-final - 包含最终的集群详细信息这是我在其中的内容。

  VL-1123{n=615 c=[0.655, 0.175, -1.042] r=[0.254, 0.086, 0.271]}
  VL-376{n=1607 c=[-0.068, 0.184, 0.787] r=[0.152, 0.020, 0.113]}
  VL-3492{n=375 c=[0.616, 0.111, 0.803] r=[0.289, 0.068, 0.227]}
  VL-347{n=507 c=[-0.496, 0.166, 0.574] r=[0.169, 0.078, 0.196]}
  VL-992{n=595 c=[0.154, 0.267, -0.394] r=[0.212, 0.083, 0.282]}
  VL-2468{n=189 c=[-0.696, -0.008, -0.494] r=[0.247, 0.213, 0.372]}

这里我有 6 个集群,所以它给出了

ClusterID(1123)、集群中的记录数(n=615)、集群质心(c)和半径(r)

此外,VL 代表集群已经收敛,这是一件好事。希望能帮助到你!!

于 2013-08-03T07:05:13.600 回答