r - 带有 doSMP 和 foreach 的并行随机森林大大增加了内存使用量（在 Windows 上）

Question

在串行执行随机森林时，它在我的系统上使用 8GB 的 RAM，在并行执行时，它使用超过两倍的 RAM (18GB)。并行执行时如何将其保持在 8GB？这是代码：

install.packages('foreach')
install.packages('doSMP')
install.packages('randomForest')

library('foreach')
library('doSMP')
library('randomForest')

NbrOfCores <- 8 
workers <- startWorkers(NbrOfCores) # number of cores
registerDoSMP(workers)
getDoParName() # check name of parallel backend
getDoParVersion() # check version of parallel backend
getDoParWorkers() # check number of workers


#creating data and setting options for random forests
#if your run this please adapt it so it won't crash your system! This amount of data  uses up to 18GB of RAM.
x <- matrix(runif(500000), 100000)
y <- gl(2, 50000)
#options
set.seed(1)
ntree=1000
ntree2 <- ntree/NbrOfCores


gc()

#running serialized version of random forests

system.time(
rf1 <- randomForest(x, y, ntree = ntree))


gc()


#running parallel version of random forests

system.time(
rf2 <- foreach(ntree = rep(ntree2, 8), .combine = combine, .packages = "randomForest") %dopar% randomForest(x, y, ntree = ntree))

score 3 · Accepted Answer

首先，SMP 会复制输入，这样每个进程都会得到自己的副本。这可以通过 using 进行转义multicore，但还有另一个问题 - 每次调用randomForest也会生成输入的内部副本。

最好的办法是通过randomForest删除森林模型本身（使用keep.forest=FALSE）并在训练的同时进行测试（通过使用xtest和可能的ytest参数）来减少一些使用。

score 1 · Accepted Answer

随机森林对象可以在中等大小的数据集下变得非常大，因此增加可能与存储模型对象有关。

要对此进行测试，您实际上应该有两个不同的会话。

尝试并行运行另一个占用空间不大的模型（例如 lda），看看您是否获得了相同的内存增加。

score 0 · Accepted Answer

我认为会发生以下情况。当您的父进程产生子进程时，内存是共享的，即内存使用量不会显着增加。然而，随着子进程开始构建随机森林，它们会创建许多新的中间对象，这些对象不在共享内存中并且可能相当大。

所以我的回答是，令人失望的是，可能没有简单的解决方法，至少使用 randomForest 包——尽管如果有人知道我会非常感兴趣。

r - 带有 doSMP 和 foreach 的并行随机森林大大增加了内存使用量（在 Windows 上）

3 回答 3

Related

Reference