我有一个 62 列和 181408 行的矩阵,我将使用 k-means 进行聚类。理想情况下,我想要一种确定最佳集群数量的方法。我已经尝试使用clusGap
cluster 包(下面的可重现代码)实现间隙统计技术,但这会产生一些与向量大小(122 GB)和memory.limit
Windows 中的问题以及Error in dist(xs) : negative length vectors are not allowed
OS X 中的“”有关的错误消息。有谁对确定具有大型数据集的最佳集群数量的技术有什么建议吗?或者,或者,如何使我的代码起作用(并且不需要几天才能完成)?谢谢。
library(cluster)
inputdata<-matrix(rexp(11247296, rate=.1), ncol=62)
clustergap <- clusGap(inputdata, FUN=kmeans, K.max=12, B=10)