0

我对一个非常大的数据执行了 k-means,该数据有数百万行,每行包含一个 48 维向量。通过应用 k = 3,将这些数据聚类为三个类,每个类都有一个 48 维的聚类中心向量。我以平行坐标图的形式绘制了三个聚类中心向量。看来三行分离得很好。但是我也想知道每个集群的范围(又名上限和下限或“误差带”)。那么我应该如何获得聚类中心的上限和下限呢?
因为每个聚类包含近百万个向量,所以很难将它们绘制在图形中作为背景并将聚类中心绘制在其顶部。
非常感谢。

4

1 回答 1

0

好吧,您当然也可以在每个轴上绘制:

  • 最小值和最大值
  • 上四分位数和下四分位数(一百万个值很容易存入 RAM,并且可以排序)
  • 标准差
  • 均值的标准误

确保您了解每个配对的统计意义。

除非存在主导特征,否则您会期望频带重叠的最小值和最大值。平均值的标准误差可能太小而无用(它表明如果添加数据点,平均值会发生多少变化,因此此范围内的任何集群差异都是完全随机的,但集群不是独立的) .

于 2019-06-23T07:34:47.607 回答