我知道有很多关于内存消耗问题的帖子,mclapply
但我仍然想看看是否有什么可以帮助我的情况。
我正在将随机森林模型拟合到 ~600 x 60,000(通过变量矩阵 X 响应 y)矩阵:
library(randomForest)
fit <- randomForest(x=X,y=y)
然后我想将该拟合与随机拟合进行比较,为此我正在做的是:
library(parallel)
set.seed(1)
random.list <- mclapply(1:1000,function(f){
idx <- shuffle(nrow(X))
random.y <- predict(object=fit,newdata=X[idx,],type="response")
}, mc.cores = ncores)
不幸的是,这太占用内存(需要超过 100GB),这使得它不切实际。
顺便说一句,我运行的环境是 Linux。
有什么建议么?