0

使用的工具:

  • 火花2
  • 苏打水 (H2O)
  • 齐柏林笔记本
  • Pyspark 代码

我从我的 Zeppelin 笔记本以内部模式启动 H2O,因为我的环境是 YARN。我正在使用基本命令:

from pysparkling import *
hc = H2OContext.getOrCreate(spark)
import h2o

我的问题是我在一台弱机器上安装了 zeppelin 服务器,当我从 ZEPPELIN 运行我的代码时,H2O 集群会自动使用其 IP 在该机器上启动。驱动程序在那里运行,我受到 H2O 消耗的驱动程序内存的限制。我有 4 台具有 100GB 和许多内核的强大工作节点机器,集群在我运行模型时使用它们,但我希望 H2O 集群在其中一台工作机器上启动并在那里运行驱动程序,但我没有找到一种迫使 H2O 这样做的方法。

我想知道是否有解决方案,或者我是否必须在工作机器上安装 zeppelin 服务器。

如果有可能的解决方案,我们将不胜感激

4

1 回答 1

0

在 yarn-cluster 模式下开始你的工作。这将使驱动程序作为另一个 YARN 容器运行。

这是另一个描述差异的stackoverflow帖子:

于 2018-03-27T11:04:16.337 回答