apache-spark - Sparking Water 与 H20 机器学习库相比有哪些好处

Question

我知道 Sparkling Water 是在 Spark 环境中执行的 H20，因此它可以使用 Spark 引擎（以及所有 Spark 分布式结构）来分配计算，但就性能而言，这是好处，因为 H2O 已经是分布式和可扩展的机器学习库？

而且，H2O 的独立版本真的能够管理计算机集群上的分布式处理吗？

score 2 · Accepted Answer

与普通 H2O 相比，使用苏打水的主要好处是它非常适合现有的 Spark 管道。如果您还没有使用 Spark，那么最好只使用常规的 H2O 库。H2O 已经是分布式的，因此将 Spark 添加到等式中并不会在分布式计算方面提供任何额外的价值。

H2O 具有许多与 Spark 相同的组件，例如分布式数据帧和共享的内存计算。所以是的，H2O 能够管理多核或多节点计算机集群上的分布式处理。这正是它的设计目的。

1 回答 1