我有一个相当大的对象列表,我想并行应用一个复杂的函数,但是我当前的方法使用了太多内存。我认为参考类可能会有所帮助,但使用mcapply
来修改它们似乎不起作用。
该函数修改了对象本身,因此我用新对象覆盖了原始对象。由于对象是一个列表,而我只修改了其中的一小部分,我希望 R 的 copy-on-modify 语义可以避免制作多个副本;但是,在运行它时,我正在做的似乎并非如此。这是我一直在使用的基本 R 方法的一个小例子。它正确地将余额重置为零。
## make a list of accounts, each with a balance
## and a function to reset the balance
foo <- lapply(1:5, function(x) list(balance=x))
reset1 <- function(x) {x$balance <- 0; x}
foo[[4]]$balance
## 4 ## BEFORE reset
foo <- mclapply(foo, reset1)
foo[[4]]$balance
## 0 ## AFTER reset
似乎使用引用类可能会有所帮助,因为它们是可变的,并且在使用lapply
它时确实如我所料;天平被重置为零。
Account <- setRefClass("Account", fields=list(balance="numeric"),
methods=list(reset=function() {balance <<- 0}))
foo <- lapply(1:5, function(x) Account$new(balance=x))
foo[[4]]$balance
## 4
invisible(lapply(foo, function(x) x$reset()))
foo[[4]]$balance
## 0
但是当我使用时mclapply
,它没有正确重置。请注意,如果您在 Windows 上或有mc.cores=1
,lapply
将被调用。
foo <- lapply(1:5, function(x) Account$new(balance=x))
foo[[4]]$balance
## 4
invisible(mclapply(foo, function(x) x$reset()))
foo[[4]]$balance
## 4
这是怎么回事?如何并行使用引用类?有没有更好的方法来避免不必要的对象复制?