我阅读了论文k-means++:小心播种的优势,并不太了解所提供的算法:
“让 D(x) 表示从数据点 x 到我们已经选择的最近中心的最短距离。
1a。从 X 中均匀随机选择一个初始中心 c1。
1b。选择下一个中心 ci,以概率 (D(x')^2) / Sum_of(D(x)^2) 选择 ci = x' ∈ X
1c。重复步骤 1b,直到我们选择了总共 k 个中心。
2-4。与标准 k-means 算法一样进行"
(最好看看上面链接中的算法)
特别是步骤 1b。“以概率 (D(x')^2) / Sumof(D(x)^2) 选择 ci = x' ∈ X”是什么意思。他们的意思是选择比例最大的元素吗?以及如何执行这样的计算才能选择最佳质心?