5

我试图找出 CRAN/github/R-Forge 上的 R 或 R 包中的哪些统计/数据挖掘算法可以在一台服务器上并行或按顺序处理大型数据集,而不会遇到内存不足问题或它可以同时在多台机器上工作。这是为了评估我是否可以轻松地将它们移植到 ff/ffbase 中,例如 ffbase::bigglm.ffdf。

我想把这些分成3部分:

  1. 并行更新或处理参数估计的算法

  2. 顺序工作的算法(在 R 中获取数据,但只使用 1 个进程,只有 1 个进程更新参数)

  3. 处理部分数据

而且我想排除简单的并行化,例如通过交叉验证来优化超参数。任何其他指向这些模型/优化器或算法的指针?也许是贝叶斯?也许是一个名为 RGraphlab (http://graphlab.org/) 的包?

4

2 回答 2

1

您是否阅读过 CRAN 上的高性能计算任务视图?

它涵盖了您提到的许多要点,并概述了这些领域的软件包。

于 2012-11-26T20:01:23.153 回答
1

随机森林并行运行很简单。这是foreach 小插图中的示例之一:

x <- matrix(runif(500), 100)
y <- gl(2, 50)
library(randomForest); library(foreach)
rf <- foreach(ntree=rep(250, 4), .combine=combine,
.packages='randomForest') %dopar% randomForest(x, y, ntree=ntree)

您可以使用此构造在集群中的每个核心上拆分您的森林。

于 2012-11-27T15:17:03.910 回答