2

是否可以在并行模式下运行 biglm?我尝试使用 doMC,然后将 biglm 嵌入到 foreach 循环中,但似乎所有内核都将同时处理相同的数据块。我如何并行化这个?

library(doMC)
RegisterDoMC(4)

require(ffbase)
sample <- read.table.ffdf(file="sample_output.csv", FUN = "read.csv", na.strings = "")  
library(biglm)
model<-list()
biglmupdate<-function(dataset,start,end) {
 if (start==1) {
    model <<- biglm(a~b+c, data=dataset[start:end,])
 }
 else {
    model <<- update(model,dataset[start:end,])
 }
}

chunks <- floor(dim(sample)[1]/220000)+1
start<-0; end<-0;
foreach (i = 1: chunks) %dopar% { 
    start = end +1; end =ifelse (i == chunks, dim(sample)[1], start+220000); 
    print(paste("chunk ",i," ",start,":",end," started at:", Sys.time()));
    biglmupdate(dataset = sample, start, end);
    print(paste("chunk ",i,"ended at:", Sys.time()));
}
4

1 回答 1

0

我对这个biglm包不是很熟悉,但它似乎不能很容易地并行执行,因为它是通过对模型对象的一系列更新来工作的。这种循环基本上是顺序的。例如,您不能并行化:

i <- 0
for (i in 1:10) {
    i <- i + 1
}

通过将十个不同的进程分别添加1i. 循环依赖于对i. 据我所知,biglm函数也是如此。

除了这个基本问题之外,我还看到您的代码的另外两个问题: and 的计算,start以及修改end方式model。正如我上面的示例一样,当并行执行循环时,您无法根据先前迭代的值计算循环变量的值。在这种情况下,可以通过将循环更改为以下内容来解决此问题:

n <- nrow(sample)
m <- 220000
foreach(start=seq(1,n,by=m), end=seq(m,n,by=m) %dopar% {
    # ...
}

start和的值end都是预先计算的,因此并行执行循环没有问题。我怀疑这解决了导致您评论所有核心都在处理同一块数据的问题。不幸的是,这并没有解决biglm并行执行的基本问题。

问题在于您正在尝试从并行进程model更新单个类似全局的变量。使用时foreach,您应该考虑从循环的每次迭代中返回一个值并使用.combine函数处理它们。让主体在循环之外修改变量几乎总是失败。

于 2013-05-17T11:56:34.250 回答