16

在应用 L 方法来确定数据集中 k 均值簇的数量之前,是否有人尝试过对评估指标应用更平滑的方法?如果是这样,它是否改善了结果?或者允许较少数量的 k-means 试验,从而大大提高速度?您使用了哪种平滑算法/方法?

“L-方法”在: Determining the Number of Clusters/Segmenting in Hierarchical Clustering/Segmentation Algorithms , Salvador & Chan

这计算了一系列不同试验集群计数的评估指标。然后,为了找到拐点(出现在最佳数量的聚类中),使用线性回归拟合两条线。应用一个简单的迭代过程来改善膝关节拟合 - 这使用现有的评估度量计算并且不需要重新运行 k-means。

对于评估指标,我使用的是 Dunns 指数的简化版本的倒数。为速度而简化(基本上我的直径和集群间计算被简化了)。倒数是为了使指数在正确的方向上工作(即,通常越低越好)。

K-means 是一种随机算法,因此通常会运行多次并选择最佳拟合。这工作得很好,但是当您为 1..N 个集群执行此操作时,时间很快就会增加。因此,控制运行次数符合我的利益。总体处理时间可能决定我的实现是否实用——如果我不能加快速度,我可能会放弃这个功能。

4

1 回答 1

6

我过去曾在 SO 上问过类似的问题。我的问题是想出一种一致的方法来找到你描述的 L 形膝盖。有问题的曲线代表了模型的复杂性和拟合度量之间的权衡。

最好的解决办法是d根据图示找到距离最大的点:

替代文字

注意:我还没有阅读你链接到的论文..

于 2011-01-07T02:31:00.670 回答