我一直在研究 k-means 聚类,但不清楚的一件大事是 Silhouette 函数真正告诉我什么?
我知道它表明应该确定什么合适的 k 但我不明白剪影函数的真正含义是什么?
我在某处读到,如果轮廓的平均值小于 0.5,则您的聚类无效。
提前感谢您的回答。
我一直在研究 k-means 聚类,但不清楚的一件大事是 Silhouette 函数真正告诉我什么?
我知道它表明应该确定什么合适的 k 但我不明白剪影函数的真正含义是什么?
我在某处读到,如果轮廓的平均值小于 0.5,则您的聚类无效。
提前感谢您的回答。
从剪影的定义:
剪影值
每个点的轮廓值是衡量该点与其自己集群中的点与其他集群中的点相比的相似程度,范围从 -1 到 +1。
第 i 个点的轮廓值 Si 定义为
Si = (bi-ai)/ max(ai,bi) 其中ai是第i个点到与i同一个簇中其他点的平均距离,bi是第i个点到a中点的最小平均距离不同的集群,在集群上最小化。
该方法只是将组内相似度与最接近的组相似度进行比较。如果任何数据成员到同一个集群的其他成员的平均距离高于到其他一些集群成员的平均距离,那么这个值是负的并且集群是不成功的。另一方面,接近 1 的 silhuette 值表示成功的聚类操作。0.5 不是聚类的精确度量。
@fatihk 给出了很好的引用;