9

我正在尝试在 R 中使用几个 foreach 循环来并行填充一个公共数组。我正在尝试做的一个非常简化的版本是:

library(foreach)
set.seed(123)
x <- matrix(NA, nrow = 8, ncol = 2)

foreach(i=1:8) %dopar% {
    foreach(j=1:2) %do% {

      l <- runif(1, i, 100)
      x[i,j] <- i + j + l     #This is much more complicated in my real code.   

    }
}

我想编写代码以x并行更新矩阵并使输出如下所示:

> x
       [,1]      [,2]
 [1,]  31.47017  82.04221
 [2,]  45.07974  92.53571
 [3,]  98.22533  12.41898
 [4,]  59.69813  95.67223
 [5,]  63.38633  55.37840
 [6,] 102.94233  56.61341
 [7,]  78.01407  69.25491
 [8,]  26.46907 100.78390 

但是,我似乎无法弄清楚如何更新数组。我试过把它放在x <-别处,但它似乎不喜欢它。我认为这将是一件很容易解决的事情,但我所有的搜索还没有把我带到那里。谢谢。

4

2 回答 2

16

foreach循环用于它们的返回值,例如lapply. for通过这种方式,它们与用于副作用的循环非常不同。通过使用适当的.combine函数,内循环可以返回由外循环foreach按行组合成矩阵的向量:foreach

x <- foreach(i=1:8, .combine='rbind') %dopar% {
   foreach(j=1:2, .combine='c') %do% {
     l <- runif(1, i, 100)
     i + j + l  
   }
}

您还可以使用嵌套运算符%:%::

x <- foreach(i=1:8, .combine='rbind') %:%
   foreach(j=1:2, .combine='c') %dopar% {
     l <- runif(1, i, 100)
     i + j + l  
   }

请注意,它set.seed可能不会做你想做的事,因为它是在本地机器上执行的,而随机数是在不同的 R 会话中生成的,可能在不同的机器上。

于 2013-07-07T00:39:56.467 回答
4

只是在史蒂夫的回答中添加一些内容:我认为关键点是并行后端启动了多个 Rscript.exe 进程(如在任务管理器中所见)。中使用的某些对象foreach,即在您的情况下x,然后被复制到为这些进程中的每一个分配的内存中。我不确定在foreach包中是如何处理复制的,但是对于包的*ply功能,plyr您必须明确说明应该复制的对象。不同的进程不共享它们的内存。(我不知道其他可以使用共享内存的 R 包......)

可以通过使用打印对象的内存位置来证明矩阵x实际上是复制的。.Internal(inspect(x))x

library(foreach)
library(doParallel)

x <- matrix(1:16, nrow = 8, ncol = 2)
#print memory location of x
capture.output(.Internal(inspect(x)))[1]

#create parallel backend; in our case two Rscript.exe processes
workers=makeCluster(2)
registerDoParallel(workers)

y<- foreach(i=1:8, .combine='rbind') %dopar% {
    #return memory location of x
    capture.output(.Internal(inspect(x)))[1]
}

#print matrix y
#there should be two different memory locations - 
#according to the two Rscript.exe processes started above
y

#close parallel backend
stopCluster(workers)

矩阵y读取

       [,1]                                                                          
result.1 "@0x0000000003dab910 13 INTSXP g0c5 [NAM(1),ATT] (len=16, tl=0) 1,2,3,4,5,..."
result.2 "@0x0000000003dab9b0 13 INTSXP g0c5 [NAM(1),ATT] (len=16, tl=0) 1,2,3,4,5,..."
result.3 "@0x0000000003dab910 13 INTSXP g0c5 [NAM(2),ATT] (len=16, tl=0) 1,2,3,4,5,..."
result.4 "@0x0000000003dab910 13 INTSXP g0c5 [NAM(2),ATT] (len=16, tl=0) 1,2,3,4,5,..."
...

您应该在那里找到两个不同的内存地址。

于 2013-07-07T01:50:19.650 回答