cluster-analysis - 如何描述聚类结果（聚类中心）的范围（误差带）？

Question

我对一个非常大的数据执行了 k-means，该数据有数百万行，每行包含一个 48 维向量。通过应用 k = 3，将这些数据聚类为三个类，每个类都有一个 48 维的聚类中心向量。我以平行坐标图的形式绘制了三个聚类中心向量。看来三行分离得很好。但是我也想知道每个集群的范围（又名上限和下限或“误差带”）。那么我应该如何获得聚类中心的上限和下限呢？
因为每个聚类包含近百万个向量，所以很难将它们绘制在图形中作为背景并将聚类中心绘制在其顶部。
非常感谢。

score 0 · Accepted Answer

好吧，您当然也可以在每个轴上绘制：

最小值和最大值
上四分位数和下四分位数（一百万个值很容易存入 RAM，并且可以排序）
标准差
均值的标准误

确保您了解每个配对的统计意义。

除非存在主导特征，否则您会期望频带重叠的最小值和最大值。平均值的标准误差可能太小而无用（它表明如果添加数据点，平均值会发生多少变化，因此此范围内的任何集群差异都是完全随机的，但集群不是独立的） .

cluster-analysis - 如何描述聚类结果（聚类中心）的范围（误差带）？

1 回答 1

Related

Reference