0

我有一组要处理的公司。每个公司都需要一段时间来处理,所以我想并行化它。我有两个问题:

  1. 我可以在 R 的多个实例中加载相同的 R 工作区图像(例如包含公司返回)并将结果吐出到 csv 文件(附加),从而以这种方式显式并行化事情吗?
  2. 必须有更好的方法来做到这一点。我环顾了 HPC 任务视图,我认为像 MPI 这样的东西对于这个任务来说有点太复杂了?有什么建议么?

这是我在想的事情。这大大简化了,但非常清楚地传达了这一点:

require(data.table)
dtb = data.table(data.frame(a=1:100, id=1:2), key="id")
save(dataf, file="mydata.RData")

#now launch a session that accepts the id argument
args = commandArgs(trailingOnly = TRUE)
theid = as.integer(args[1])
load("mydata.RData")
r = dtb[id == theid,sum(a)]
write.csv(r, "myfile.csv", append=TRUE)

这显然会工作得非常快,但我每个公司都在运行很多滚动回归,所以它有点慢,但每个过程都是独立的。请注意,我想在不同节点启动会话的 LSF 网格上运行它。目前我只是提交了几个带参数的作业。我想要一个更好的方法。

4

0 回答 0