r - R：如何在 foreach %dopar% 中拆分数据帧

Question

这是一个非常简单的例子。

df = c("already ","miss you","haters","she's cool")
df = data.frame(df)

library(doParallel)
cl = makeCluster(4)
registerDoParallel(cl)    
foreach(i = df[1:4,1], .combine = rbind, .packages='tm')  %dopar% classification(i)
stopCluster(cl)

在实际情况下，我有 n=400000 行的数据框。我不知道如何一步发送每个集群的 nrow/ncluster 数据，i = ？

我尝试使用 library(itertools) 中的 isplitRows 没有成功。

score 6 · Accepted Answer

您应该尝试使用索引来创建数据的子集。

foreach(i = nrow(df), .combine = rbind, .packages='tm')  %dopar% {
  tmp <- df[i, ]
  classification(tmp)
}

这将采用data.frame每次迭代的新行。

此外，您应该注意到 foreach 循环的结果将被写入一个新变量。因此，您应该像这样分配它：

res <- foreach(i = 1:10, .combine = c, ....) %dopar% {
  # things you want to do
  x <- someFancyFunction()

  # the last value will be returned and combined by the .combine function
  x 
}

score 0 · Accepted Answer

尝试在此处使用方法 1 中建议的split和的组合： https ://www.r-bloggers.com/trying-to-reduce-the-memory-overhead-when-using-mclapply/mclapply

split允许您将数据拆分为由一个因素定义的组，或者1:nrow(df)如果您想单独对每一行进行操作，您可以使用。

score 0 · Accepted Answer

您发表评论后我的解决方案：

n = 8  #number of cluster
library(foreach)
library(doParallel)
cl = makeCluster(n)
registerDoParallel(cl)

z = nrow(df)
y = floor(z/n) 
x = nrow(df)%%n

ris = foreach(i = split(df[1:(z-x),],rep(1:n,each=y)), .combine = rbind, .packages='tm')  %dopar% someFancyFunction(i)

stopCluster(cl)

#sequential
if (x !=0 )
    ris = rbind(ris,someFancyFunction(df[(z-x+1):z,1]))

注意：我在最后使用了顺序执行，因为如果“x”不为零，则函数 split 将其余行 (z-(zx)) 放在第一个簇中，并更改结果的顺序。

r - R：如何在 foreach %dopar% 中拆分数据帧

3 回答 3

Related

Reference