1

我想就为 foreach() 编写组合函数寻求一些帮助。考虑下面的函数:

library(mvtnorm)
library(doMC)

mySimFunc <- function(){
  myNum <- runif(1)
  myVec <- rnorm(10)
  myMat <- rmvnorm(5, rep(0, 3), diag(3))
  myListRslt <- list("myNum" = myNum, "myVec" = myVec, "myMat" = myMat)
return (myListRslt)
}

现在我想使用 foreach() %dopar% 运行上面的代码 1000 次,并且在每次迭代中我想:

  1. 按原样返回 myNum
  2. 获取 myVec 的平均值并返回
  3. 获取 myMat 的 colMeans() 并返回它。

我希望 foreach() %dopar% 返回一个最终列表,包括:

  1. 长度为 1000 的向量,包括 1000 个 myNum,每个对应于一次迭代
  2. 长度为 1000 的向量,包括每次迭代中 myVec 的 1000 个平均值
  3. 具有 1000 行的矩阵,其中每行包含该迭代中 myMat 的 colMeans

我的理想解决方案

我理想的解决方案是找到一种 foreach() 行为与 for 完全相同的方式,以便我可以简单地定义:

myNumRslt <- NULL
myVecRslt <- NULL
myMatRslt <- NULL

# and then simply aggregate result of each iteration to the variables above as:
foreach(i = 1:1000) %dopar%{
   rslt <- mySimFunc()
   myNumRslt <- c(myNumRslt, rslt$myNum)
   myVecRslt <- c(myVecRslt, mean(rslt$myVec))
   myMatRslt.tmp <- colMeans(rslt$myMat)
   myMatRslt <- rbind(myMatRslt, myMatRslt.tmp)
}

但是,不幸的是,似乎不可能用 foreach() 做到这一点,所以我认为唯一的解决方案是编写一个类似于上面结果聚合的组合函数。

挑战

1)我如何编写一个组合函数来返回我上面解释的内容?

2)当我们执行 %dopar% (假设使用 doMC 包)时,doMC 是将每次迭代分配给 CPU 还是进一步将每次迭代划分为更多部分并分配它们?

3)有没有比使用 doMC 和 foreach() 更好(更有效)的方法? 想法 在这个问题中, Brian提到了一种处理包含数值的列表的绝妙方法。就我而言,我有数值以及向量和矩阵。我不知道如何在我的情况下扩展布赖恩的想法。

非常感谢您的帮助。

4

1 回答 1

1

编辑

清理,通用的解决方案,使用.combine

#modify function to include aggregation
mySimFunc2 <- function(){
myNum <- runif(1)
myVec <- mean(rnorm(10))
myMat <- colMeans(rmvnorm(5, rep(0, 3), diag(3)))
myListRslt <- list("myNum" = myNum, "myVec" = myVec, "myMat" = myMat)
return (myListRslt)
}

#.combine function
MyComb1 <- function(...) {
lst=list(...)
vec<-sapply(1:length(lst), function (i) return(lst[[i]][[1]] ))
vecavg<-sapply(1:length(lst),function (i) return(lst[[i]][[2]] ))
colmeans<-t(sapply(1:length(lst), function (i) return(lst[[i]][[3]])))
final<-list(vec,vecavg,colmeans)
names(final)<-c("vec","vecavg","colmeans")
return(final)
}

library(doParallel)
cl <- makeCluster(3) #set cores
registerDoParallel(cl)

foreach(i=1:1000,.export=c("mySimFunc2","MyComb1"),.combine=MyComb1,
.multicombine=TRUE,.maxcombine=1000, .packages=c("mvtnorm"))%dopar%{mySimFunc2()}

您现在应该有一个包含所需三个对象的列表输出,我将它们分别命名为vecvecavgcolmeans.maxcombine请注意,如果迭代次数大于 100,则必须设置迭代次数。

附带说明一下,对这个示例任务进行并行化是没有意义的,尽管我猜真正的任务可能更复杂。

于 2014-05-05T08:45:42.953 回答