我有一个具有以下维度的数据框:
dim(b)
[1] 974 433685
这些列代表我想要运行 ANOVA 的变量(即,我想要运行 433,685 ANOVA)。样本大小为 974。最后一列是“组”变量。
我想出了 3 种不同的方法,但由于测试的数量,所有方法都太慢了。
首先,让我们生成一个小的练习数据集来玩:
dat = as.data.frame(matrix(runif(10000*500), ncol = 10000, nrow = 500))
dat$group = rep(letters[1:10], 5000)
方法 1(基于'sapply'):
system.time(sapply(dat[,-length(dat)], function(x) aov(x~group, data=dat) ))
user system elapsed
143.76 0.33 151.79
方法2(基于'parallel'包中的'mclapply'):
library(parallel)
options(mc.cores=3)
system.time(mclapply(dat[,-length(dat)], function(x) aov(x~group, data=dat) ))
user system elapsed
141.76 0.21 142.58
方法 3(基于'cbind'-ing LHS):
formula = as.formula( paste0("cbind(", paste(names(dat)[-length(dat)],collapse=","), ")~group") )
system.time(aov(formula, data=dat))
user system elapsed
10.00 0.22 10.25
在实践数据集中,方法 3 是明显的赢家。但是,当我对实际数据执行此操作时,使用方法 3 仅计算 10(433,685)列需要很长时间:
user system elapsed
119.028 5.430 124.414
不知道为什么我的实际数据需要更长的时间。我可以访问具有 16 个以上内核和 72GB RAM 的 Linux 集群。
有什么方法可以更快地计算吗?