我正在开发一个 Web 应用程序,我想执行两种统计/建模操作。
(1) 对存储在我的应用程序后端(HBase 集群)中的数据进行批量分析。通常,此操作需要定期执行,例如每晚。数据的大小可能会超过本地内存可以存储的大小,因此这可能需要调用一些支持并行计算的包。(2) 在前端由用户请求触发的动态 R 执行。典型用例包括小时间序列的预测。用户可能会同时发出请求,因此应该有一些对并发的支持。性能至关重要,因为用户不能无限期地等待响应的到来。
我的问题是:解决这两个问题的技术/CRAN 包的最佳组合是什么?我目前的想法是:
- 将 Rserver 与 Ruby 客户端结合使用。或者,我正在考虑用 Java 编写自己的服务器并使用现有的 R/Java 绑定。
- 使用 RHadoop 处理大型数据集上的作业。
我看到 RevoDeployR 是一个很棒的工具,但不是开源的,不是吗?
谢谢您的帮助