我试图找出 CRAN/github/R-Forge 上的 R 或 R 包中的哪些统计/数据挖掘算法可以在一台服务器上并行或按顺序处理大型数据集,而不会遇到内存不足问题或它可以同时在多台机器上工作。这是为了评估我是否可以轻松地将它们移植到 ff/ffbase 中,例如 ffbase::bigglm.ffdf。
我想把这些分成3部分:
并行更新或处理参数估计的算法
Buckshot ( https://github.com/lianos/buckshot )
lm.fit @ 大数据编程 ( https://github.com/RBigData )
顺序工作的算法(在 R 中获取数据,但只使用 1 个进程,只有 1 个进程更新参数)
bigglm ( http://cran.r-project.org/web/packages/biglm/index.html )
复合泊松线性模型(http://cran.r-project.org/web/packages/cplm/index.html)
Kmeans @ biganalytics ( http://cran.r-project.org/web/packages/biganalytics/index.html )
处理部分数据
- 分布式文本处理 ( http://www.jstatsoft.org/v51/i05/paper )
而且我想排除简单的并行化,例如通过交叉验证来优化超参数。任何其他指向这些模型/优化器或算法的指针?也许是贝叶斯?也许是一个名为 RGraphlab (http://graphlab.org/) 的包?