6

如果我们有一些数据点:

在此处输入图像描述

我们使用例如 k-means 进行分割;结果段不是每个点都最接近其各自集群的质心吗?如果是这样,当轮廓分数比较 ai(到簇内点的平均距离)与 bi(到簇外点的平均距离)时,怎么可能出现分数为负或 bi 小于 ai 的情况?

我可以看到可能对于不同的分类算法,一些更复杂的分类算法可能会以不同的方式聚类,或者某些点分配不正确。但是这对于 k-means 是如何发生的呢?

4

1 回答 1

5

一个点 i 到集群中的点的平均距离与其到该集群的质心的距离不同。Silhouette score 在计算 a(i) 和 b(i) 时使用前者,而 k-means 在聚类分配中使用后者,因此可能存在分歧。

例如,在下图中:假设蓝色点已分配给一个集群,而绿色点已分配给另一个集群。红点将分配到哪个集群?蓝色簇的质心在 (0, 1),绿色簇的质心在 (0, -1.15),因此红色点将分配给蓝色簇。然而,它到绿点的平均距离是 1.15,而它到蓝点的平均距离是 1.414,所以它会得到一个负的剪影分数。

剪影分数反例

于 2021-03-22T17:43:07.233 回答