我正在尝试对 中的大型数据集进行层次聚类R
,例如 > 30,000 行(观察)和 > 30 列(变量)。fastcluster
集群本身与包一起很快。但是,由于差异计算,我遇到了内存和速度问题。这只适用于最多 10,000-15,000 个观测值。对于更高的数字,R
通常会崩溃。即使计算了相异矩阵,memory overflow
之后尝试聚类时也会出现错误。有没有办法克服这些问题?
我在具有 4 GB RAM 的 64 位计算机上使用 Windows 7 Professional。
MWE:
library('fastcluster')
df <- as.data.frame(matrix(rnorm(900000), nrow = 30000))
dissim <- dist(df)
hr <- hclust(dissim)