0

我正在使用 R 和 SAS 进行聚类分析,我得到的结果非常不同。

我知道结果是随机的,所以有一点点差异是正常的,但差异是巨大的。

我使用来自 SAS 的著名 CARS 数据集进行测试。

使用 R,我这样做:

kmeans(CARS[,c(8,10)],5)

结果:(between_SS / total_SS = 93.2 %)

使用 SAS,我这样做:

proc fastclus data=sashelp.cars maxclusters=5 ; var EngineSize 
Horsepower ; run;

结果:近似预期总体 R 平方 = 0.96079

差异较小,但仍有差异。我做了几次测试,结果还是一样。

这种差异从何而来?

4

1 回答 1

2

从文档中可以肯定:

这些他们依赖于不同的算法。SAS文档含糊地描述了一种“最近质心排序”的方法。我对此一无所知,但可能会查看其他集群功能(如hclust)或其他包以找到可比较的东西。

于 2013-06-05T10:30:49.690 回答