apache-spark - 强制 H2O 苏打水集群以 YARN 模式在特定机器上启动

Question

使用的工具：

火花2
苏打水 (H2O)
齐柏林笔记本
Pyspark 代码

我从我的 Zeppelin 笔记本以内部模式启动 H2O，因为我的环境是 YARN。我正在使用基本命令：

from pysparkling import *
hc = H2OContext.getOrCreate(spark)
import h2o

我的问题是我在一台弱机器上安装了 zeppelin 服务器，当我从 ZEPPELIN 运行我的代码时，H2O 集群会自动使用其 IP 在该机器上启动。驱动程序在那里运行，我受到 H2O 消耗的驱动程序内存的限制。我有 4 台具有 100GB 和许多内核的强大工作节点机器，集群在我运行模型时使用它们，但我希望 H2O 集群在其中一台工作机器上启动并在那里运行驱动程序，但我没有找到一种迫使 H2O 这样做的方法。

我想知道是否有解决方案，或者我是否必须在工作机器上安装 zeppelin 服务器。

如果有可能的解决方案，我们将不胜感激

score 0 · Accepted Answer

在 yarn-cluster 模式下开始你的工作。这将使驱动程序作为另一个 YARN 容器运行。

这是另一个描述差异的stackoverflow帖子：

Spark yarn cluster vs client - 如何选择使用哪一个？

apache-spark - 强制 H2O 苏打水集群以 YARN 模式在特定机器上启动

1 回答 1

Related

Reference