r - R 和 SAS：聚类分析的不同结果

Question

我正在使用 R 和 SAS 进行聚类分析，我得到的结果非常不同。

我知道结果是随机的，所以有一点点差异是正常的，但差异是巨大的。

我使用来自 SAS 的著名 CARS 数据集进行测试。

使用 R，我这样做：

kmeans(CARS[,c(8,10)],5)

结果：（between_SS / total_SS = 93.2 %）

使用 SAS，我这样做：

proc fastclus data=sashelp.cars maxclusters=5 ; var EngineSize 
Horsepower ; run;

结果：近似预期总体 R 平方 = 0.96079

差异较小，但仍有差异。我做了几次测试，结果还是一样。

这种差异从何而来？

score 2 · Accepted Answer

从文档中可以肯定：

这些他们依赖于不同的算法。SAS文档含糊地描述了一种“最近质心排序”的方法。我对此一无所知，但可能会查看其他集群功能（如hclust）或其他包以找到可比较的东西。

1 回答 1