h2o - H20 Sparkling 中的节点是否可抢占？

Question

我正在运行Sparkling water超过36 个 Spark executors。由于 Yarn 的调度，一些 executor 会先发制人，稍后再回来。总体而言，大部分时间有36 个执行者，但并非总是如此。

到目前为止，我的经验是，一旦有1 个执行程序失败，整个H2o实例就会停止，即使丢失的执行程序稍后恢复运行。我想知道这是否是Sparkling-water行为方式？还是需要开启一些抢占能力？

有人对此有所了解吗？

score 0 · Accepted Answer

[概括]

您所看到的是苏打水的行为方式。

[ 细节... ]

YARN 上的苏打水可以通过两种不同的方式运行：

H2O 节点不支持弹性云形成行为。也就是说，一旦 H2O 集群形成，新节点可能不会加入集群（它们被拒绝），现有节点可能不会离开集群（集群变得不可用）。

因此，必须为运行 H2O 节点的队列禁用 YARN 抢占。默认情况下，这意味着整个 Spark 作业必须在禁用 YARN 抢占（并且 Spark dynamicAllocation 禁用）的情况下运行。对于外部 H2O 集群方式，这意味着 H2O 集群必须在禁用抢占的 YARN 队列中运行。

其他可能有帮助的信息：

1 回答 1