0

我需要在不适合我计算机内存的数据上安装 GLM。通常为了解决这个问题,我会对数据进行采样,拟合模型,然后在内存不足的不同样本上进行测试。这对我来说是 R 的主要限制,这就是为什么适合 GLM 的 SAS 是首选的原因,因为它不会因不适合内存的数据而绊倒。

我一直在尝试寻找在本地机器上使用 R 解决此问题的方法,并想知道 Sparklyr 是否可用于解决内存问题?我意识到 Spark 旨在用于集群环境等,但直接 - Sparklyr 可以用于处理我本地机器上的数据,否则这些数据将不适合其内存?

4

1 回答 1

0

Spark 和 Sparklyr 在分配负载方面表现出色,但不太可能在一个具有单个 Spark 实例的机器上解决您的问题。H2O 可能会让你的运气更好 https://cran.r-project.org/web/packages/h2o/index.html

于 2017-01-25T19:40:00.867 回答