我正在做一个聚类分析,我有两个问题:
- 我用这两种方法发现了平方和的两个不同值:
1/ 这里建立的第一种方法:http : //www.statmethods.net/advstats/cluster.html
set.seed(180)
wss <- (nrow(mydata)-1)*sum(apply(mydata,2,var))
for (i in 1:8)
wss[i] <- sum(kmeans(mydata,
centers=i)$withinss)
wss
[1] 2244832.0 1707497.8 1514193.9 1131349.7 990028.8 698772.0 683106.4 522783.8
2/ 第二种方法
set.seed(180)
fit <- kmeans(mydata, 5)
fit$tot.withinss
[1] 857443.8
正如你所看到的 990 028 !=857 443 即使我使用了“set.seed”
Statmethods网站的公式有错误吗?
最后,有时 wss 会随着集群的数量而增加。没关系还是不可能?