cluster-analysis - Weka 简单的 K-means 聚类分配

Question

我有一个感觉很简单的问题，但我似乎找不到答案。我对 Weka 还很陌生，但我觉得我已经对此进行了一些研究（至少通读了谷歌搜索结果的前几页），然后就干了。

我正在使用 Weka 使用 Simple K-Means 运行集群。在结果列表中，我可以毫无问题地可视化我的输出（“可视化集群分配”），从我对 K-Means 算法的理解和 Weka 的输出来看，我的每个实例最终都会成为一个成员不同的集群（如果你愿意，以特定的质心为中心）。

我可以从文本输出中看到一些集群组成。然而，Weka 没有为我提供从实例编号到集群编号的明确“映射”。我想要类似的东西：

instance 1 --> cluster 0
instance 2 --> cluster 0
instance 3 --> cluster 2
instance 4 --> cluster 1
... etc.

如何在不计算每个项目到每个质心的距离的情况下获得这些结果？

score 14 · Accepted Answer

我有同样的问题并想通了。如果有人需要知道，我将在此处发布该方法：

它其实很简单，你必须使用 Weka 的 java api。

SimpleKMeans kmeans = new SimpleKMeans();

kmeans.setSeed(10);

// This is the important parameter to set
kmeans.setPreserveInstancesOrder(true);
kmeans.setNumClusters(numberOfClusters);
kmeans.buildClusterer(instances);

// This array returns the cluster number (starting with 0) for each instance
// The array has as many elements as the number of instances
int[] assignments = kmeans.getAssignments();

int i=0;
for(int clusterNum : assignments) {
    System.out.printf("Instance %d -> Cluster %d", i, clusterNum);
    i++;
}

score 9 · Accepted Answer

啊哈，我想我找到了我要找的东西。在集群可视化工具下，单击“保存”。这将整个数据集保存为与我提供的输入文件几乎相同的 ARFF 文件，但具有 2 个新属性：第一个属性是实例的索引，而最后一个属性是集群分配。现在我只需要解析它的废话！

cluster-analysis - Weka 简单的 K-means 聚类分配

2 回答 2

Related

Reference