2

我一直在研究 k-means 聚类,但不清楚的一件大事是 Silhouette 函数真正告诉我什么?

我知道它表明应该确定什么合适的 k 但我不明白剪影函数的真正含义是什么?

我在某处读到,如果轮廓的平均值小于 0.5,则您的聚类无效。

提前感谢您的回答。

4

3 回答 3

3

剪影的定义:

剪影值

每个点的轮廓值是衡量该点与其自己集群中的点与其他集群中的点相比的相似程度,范围从 -1 到 +1。

第 i 个点的轮廓值 Si 定义为

Si = (bi-ai)/ max(ai,bi) 其中ai是第i个点到与i同一个簇中其他点的平均距离,bi是第i个点到a中点的最小平均距离不同的集群,在集群上最小化。

该方法只是将组内相似度与最接近的组相似度进行比较。如果任何数据成员到同一个集群的其他成员的平均距离高于到其他一些集群成员的平均距离,那么这个值是负的并且集群是不成功的。另一方面,接近 1 的 silhuette 值表示成功的聚类操作。0.5 不是聚类的精确度量。

于 2013-08-17T06:46:18.637 回答
0

@fatihk 给出了很好的引用;

  • 此外,您可以将 Silhouette 值视为 集群如何相互重叠的程度,即 -1:完全重叠,+1:集群完全可分离;
  • 但是特定算法的低轮廓值并不意味着没有集群,而是意味着所使用的算法无法分离集群,您可以考虑调整您的算法或使用不同的算法(想想同心圆的 K-means,vs DBSCAN)。
于 2018-04-12T18:05:13.320 回答
-2

有一个与肘法相关的显式公式可以自动确定聚类的数量。该公式告诉您在使用肘部方法确定簇数时检测到的肘部强度,请参见此处。请参见此处的插图: 增强型弯头规则

于 2019-03-14T15:13:18.793 回答