我正在使用 R 和 SAS 进行聚类分析,我得到的结果非常不同。
我知道结果是随机的,所以有一点点差异是正常的,但差异是巨大的。
我使用来自 SAS 的著名 CARS 数据集进行测试。
使用 R,我这样做:
kmeans(CARS[,c(8,10)],5)
结果:(between_SS / total_SS = 93.2 %)
使用 SAS,我这样做:
proc fastclus data=sashelp.cars maxclusters=5 ; var EngineSize
Horsepower ; run;
结果:近似预期总体 R 平方 = 0.96079
差异较小,但仍有差异。我做了几次测试,结果还是一样。
这种差异从何而来?