我一直在研究H20机器学习平台,并试图弄清楚它与 R 的使用是否允许 R 处理非常大的数据(>> 笔记本电脑上的可用 RAM),或者它是否仍然受 RAM 数量的限制?我认为既然它是“内存中的”,这意味着它仍然需要大量的 RAM 或服务器集群吗?有人有这方面的经验吗?
问问题
820 次
1 回答
4
是的,h20 是一种内存架构,因此受到物理内存的限制。它们确实支持大约 15 种不同的压缩方案,包括那些旨在压缩稀疏数据的方案。
他们说一些流媒体支持“在路线图上,但尚未实施”。
如果您的数据集不适合,并且您无法更有效地压缩或编码数据类型(因子、逻辑、分割成范围、文本预处理),那么您将需要一个大集群或大云实例。
此外,仅供参考,对 R 的支持只是一个子集:
关于 R 的注释:H2O 支持一种类似 R 的语言——不是完整的 R 语义——但显然是 R 的数据并行数据处理方面,当然所有运算符都完全并行和分布式运行。有一个 REPL。您可以使用它来添加或删除列或行、制造特征、估算缺失值或插入许多 R 表达式并让它们大规模运行。
因此,例如尽可能使用他们的预烘焙算法(高性能本机 Java 实现)而不是通用 R 算法代码。
您需要原型设计还是生产?您可能会问他们是否有任何参考客户正在生产 R-H2O。
于 2015-01-03T21:11:43.450 回答