使用的工具:
- 火花2
- 苏打水 (H2O)
- 齐柏林笔记本
- Pyspark 代码
我从我的 Zeppelin 笔记本以内部模式启动 H2O,因为我的环境是 YARN。我正在使用基本命令:
from pysparkling import *
hc = H2OContext.getOrCreate(spark)
import h2o
我的问题是我在一台弱机器上安装了 zeppelin 服务器,当我从 ZEPPELIN 运行我的代码时,H2O 集群会自动使用其 IP 在该机器上启动。驱动程序在那里运行,我受到 H2O 消耗的驱动程序内存的限制。我有 4 台具有 100GB 和许多内核的强大工作节点机器,集群在我运行模型时使用它们,但我希望 H2O 集群在其中一台工作机器上启动并在那里运行驱动程序,但我没有找到一种迫使 H2O 这样做的方法。
我想知道是否有解决方案,或者我是否必须在工作机器上安装 zeppelin 服务器。
如果有可能的解决方案,我们将不胜感激