我想对一组 10 个数据点执行 ak 均值聚类分析,每个数据点都有一个由 4 个数值组成的数组与之关联。我使用 Pearson 相关系数作为距离度量。我做了 k 均值聚类算法的前两个步骤,它们是:
1)选择k个簇的一组初始中心。【我随机选择了两个初始中心】
2)将每个对象分配给具有最近中心的集群。[我使用 Pearson 相关系数作为距离度量——见下文]
现在我需要帮助理解算法的第三步:
3)计算集群的新中心:
其中 X,在这种情况下是一个 4 维向量,n 是集群中数据点的数量。
对于以下数据,我将如何计算 C(S)?
# Cluster 1
A 10 15 20 25 # randomly chosen centre
B 21 33 21 23
C 43 14 23 23
D 37 45 43 49
E 40 43 32 32
# Cluster 2
F 100 102 143 212 #random chosen centre
G 303 213 212 302
H 102 329 203 212
I 32 201 430 48
J 60 99 87 34
k 均值算法的最后一步是重复第 2 步和第 3 步,直到没有对象更改集群,这很简单。
我需要第 3 步的帮助。计算集群的新中心。如果有人可以通过并解释如何计算其中一个集群的新中心,那将极大地帮助我。