根据Mahout in Action
与 k-means 一样,模糊 k-means 在数据集上循环,但不是将向量分配给最近的质心,而是计算点与每个聚类的关联程度。
如果没有将向量分配给最近的质心,那么在下一次迭代中如何计算质心?
我刚刚搜索了模糊 k-means,它听起来基本上就像 EM 聚类,这是一个广为人知且有用的概念。
这里的问题是没有硬性分配。
当一个点选择它应该属于哪个质心时,它会得出它属于每个质心的概率(通过考虑它与每个质心的距离并通过它们的累积和对这些数字进行归一化)
当质心决定重新定位到哪里时,它没有明确定义的一组点属于它,它可以简单地为其新位置取平均值。相反,它所做的是根据它们属于它的概率对这些点进行加权平均。因此,如果只有 3 个点 X、Y 和 Z,并且 X 和 Y 分别以 1.0 的概率属于该集群,Z 以 0.5 的概率属于该集群,那么质心的新位置将是
(1.0/2.5) * X + (1.0/2.5) * Y + (0.5/2.5) * Z
所以这就是在每次迭代中计算质心的方式。