python - 如何使用 scipy 的分层聚类将聚类分配给新的观察（测试数据）

Question

from scipy.cluster.hierarchy import dendrogram, linkage,fcluster
import numpy as np
import matplotlib.pyplot as plt

# data
np.random.seed(4711)  # for repeatability of this tutorial
a = np.random.multivariate_normal([10, 0], [[3, 1], [1, 4]], size=[100,])
b = np.random.multivariate_normal([0, 20], [[3, 1], [1, 4]], size=[50,])
X = np.concatenate((a, b),)

plt.scatter(X[:,0], X[:,1])

# fit clusters
Z = linkage(X, method='ward', metric='euclidean', preserve_input=True)

# plot dendrogram

max_d = 50
clusters = fcluster(Z, max_d, criterion='distance')

# now if I have new data
a = np.random.multivariate_normal([10, 0], [[3, 1], [1, 4]], size=[10,])
b = np.random.multivariate_normal([0, 20], [[3, 1], [1, 4]], size=[5,])
X_test = np.concatenate((a, b),)
print(X_test.shape)  # 150 samples with 2 dimensions
plt.scatter(X_test[:,0], X_test[:,1])
plt.show()

如何计算新数据的距离并使用来自训练数据的集群分配集群？

代码参考：joernhees.de

score 4 · Accepted Answer

你没有。

聚类没有训练和测试阶段。这是一种探索性的方法。您探索数据，也可以通过重新运行算法探索新数据。但是由于该算法的本质，您无法将新数据有意义地“分配”给旧结构，因为这些数据可能会完全改变发现的结构。

如果要分类，请使用分类器。

聚类算法不能替代分类器。如果您想对新实例进行分类，请使用分类器，并使用例如以下工作流程：

使用聚类探索数据（多次）
使用您的领域专家认为有意义的集群标记训练数据（验证集群！）
训练分类器
使用分类器以相同的方式标记新实例

当然，也有一些例外。在 k-means 和 Ward 中（但不是例如在单链接中），最近质心分类器可以在某种程度上将发现的模型直接应用于新数据。尽管如此，这意味着将聚类“转换”为静态分类器，结果可能不再是整个数据集上的局部最优值（另见：概念漂移）

python - 如何使用 scipy 的分层聚类将聚类分配给新的观察（测试数据）

1 回答 1

你没有。

如果要分类，请使用分类器。

Related

Reference