python - Python - 使用 K-means 进行聚类。一些方差为零的列

Question

我有一个由约 200 个 99x20 频率数组组成的数据集，每列总和为单位。我已经使用热图（如. 每个数组都非常稀疏，每 99 个位置只有大约 1-7/20 个值是非零的。

但是，我想根据它们的频率分布的相似程度（最小欧几里德距离或类似的东西）对这些样本进行聚类。我将每个 99x20 阵列排列成一个 1980x1 阵列，并将它们聚合成一个 200x1980 观察阵列。

在找到集群之前，我尝试使用scipy.cluster.vq.whiten. whiten通过方差对每列进行归一化，但由于我展平数据数组的方式，我有一些 (8) 列的频率全为零，因此方差为零。因此，白化数组具有无限值，质心查找失败（或给出约 200 个质心）。

我的问题是，我应该如何解决这个问题？到目前为止，我已经尝试过

可以只删除其中一些零方差列吗？这会以任何方式偏向聚类吗？

编辑：我也尝试过使用我自己的 whiten 函数

for i in range(arr.shape[1]):
    if np.abs(arr[:,i].std()) < 1e-8: continue
    arr[:,i] /= arr[:,i].std()

这似乎可行，但我不确定这是否会以任何方式偏向聚类。

谢谢

score 3 · Accepted Answer

首先，删除常量列是非常好的。显然他们不提供信息，所以没有理由保留它们。

然而，K-means 对于稀疏向量并不是特别好。问题是最有可能产生的“质心”彼此之间比集群成员更相似。看，在稀疏数据中，每个对象在某种程度上都是一个异常值。而且 K-means 对异常值非常敏感，因为它试图最小化平方和。

我建议您执行以下操作：

找到适用于您的域的相似性度量。在如何为您的特定用例捕获相似性方面花费大量时间。
一旦你有了相似度，计算 200x200 的相似度矩阵。由于您的数据集非常小，您实际上可以运行昂贵的聚类方法，例如层次聚类，这些方法无法扩展到数千个对象。如果您愿意，您还可以尝试 OPTICS 集群或 DBSCAN。但特别是如果您的数据集更大，DBSCAN 实际上会更有趣。对于微小的数据集，层次聚类很好。

score 3 · Accepted Answer

删除所有 0 的列不应使数据产生偏差。如果你有 N 维数据，但一维都是同一个数，这与拥有 N-1 维数据完全一样。这种有效维数的性质称为秩。

考虑 3-D 数据，但所有数据点都在 x=0 平面上。你能看出这与二维数据完全相同吗？

2 回答 2