我在 R 中并行运行随机森林
library(doMC)
registerDoMC()
x <- matrix(runif(500), 100)
y <- gl(2, 50)
并行执行(耗时 73 秒)
rf <- foreach(ntree=rep(25000, 6), .combine=combine, .packages='randomForest') %dopar%
randomForest(x, y, ntree=ntree)
顺序执行(耗时 82 秒)
rf <- foreach(ntree=rep(25000, 6), .combine=combine) %do%
randomForest(x, y, ntree=ntree)
在并行执行中,树的生成非常快,例如 3-7 秒,但其余时间用于合并结果(合并选项)。因此,运行并行执行的唯一价值是树的数量非常多。有什么办法可以调整“组合”选项以避免在每个节点上进行任何我不需要的计算并使其更快
PS。以上只是数据的一个例子。实际上,对于大约 100 次观察,我有大约 10 万个特征。