问题标签 [sparkling-water]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
692 浏览

scala - java.lang.IllegalArgumentException:字符串向量上不允许操作

在 flightToORD 上执行任何函数时,我们收到以下错误消息。我们只能在这里从输入文件创建 Spark Data Frame,这就是我们创建 Spark Data Frame 并将其转换为 H2O 的原因

我正在使用 sparkling-water-2.0.25 和 Spark 2.0.2

0 投票
1 回答
122 浏览

apache-spark - 强制 H2O 苏打水集群以 YARN 模式在特定机器上启动

使用的工具:

  • 火花2
  • 苏打水 (H2O)
  • 齐柏林笔记本
  • Pyspark 代码

我从我的 Zeppelin 笔记本以内部模式启动 H2O,因为我的环境是 YARN。我正在使用基本命令:

我的问题是我在一台弱机器上安装了 zeppelin 服务器,当我从 ZEPPELIN 运行我的代码时,H2O 集群会自动使用其 IP 在该机器上启动。驱动程序在那里运行,我受到 H2O 消耗的驱动程序内存的限制。我有 4 台具有 100GB 和许多内核的强大工作节点机器,集群在我运行模型时使用它们,但我希望 H2O 集群在其中一台工作机器上启动并在那里运行驱动程序,但我没有找到一种迫使 H2O 这样做的方法。

我想知道是否有解决方案,或者我是否必须在工作机器上安装 zeppelin 服务器。

如果有可能的解决方案,我们将不胜感激

0 投票
2 回答
99 浏览

h2o - 在同一个集群上运行多个苏打水实例

在同一驱动程序上创建的两个并发 h2ocontext 似乎相互冲突。当一个运行时,另一个会抛出错误。我们可以做一些配置,使两个苏打水实例可以并行运行吗?

0 投票
2 回答
1139 浏览

h2o - 如何将预测与测试帧结合起来

将预测帧合并到包含特征的 h2oframe 的任务不是通过 water.rapids.Merge 的合并方法完成的。

如何使用merge方法将预测帧合并到特征帧,并让我知道该方法的参数描述,以便可以正确调用方法?

int[][] id_maps, int[] leftCols,int[] riteCols参数是什么?

将预测框架合并到特征框架的正确方法是什么?

0 投票
1 回答
773 浏览

scala - 如何从 scala 中的苏打水中将 h2o 模型导出为 MOJO,由 EasyPredictModelWrapper 加载

我的目标是导出一个使用 scala(使用苏打水)在 spark 上训练的 h2o 模型,这样我就可以在没有 Spark 的应用程序中导入它。

因此:

  • 使用 scala(文档仅显示 r 和 python 的示例)
  • 导出使用苏打水(带火花的水)构建的模型
  • 在 scala 中导入模型(没有 spark 也没有 h2o 集群,只有hex-genmodel包)

因此,我使用ModelSerializationSupportto export 和MojoModel.loadto import

失败

似乎 mojo 导出器没有使用与hex.genmodel(显然是 zip)中预期的格式相同的格式

在 h2o 2.1.23 上运行(构建集群时 2.1.24 失败,如https://0xdata.atlassian.net/browse/SW-776上所报告)和 spark 2.1

- 更新:

使用 ModelSerializationSupport 类加载它自己的导出也失败了,同样的例外:

H2OModel 导出和加载
作为 H2OModel 加载回来(因此使用苏打水)确实有效:

H2OMOJOModel 导出和加载
加载它H2OMOJOModel确实有效(从实现中复制H2OGBM):

使用 MojoModel 导入的 H2OGBM 导出
尝试使用常规导入MojoModel失败:

除了以下例外:

0 投票
0 回答
308 浏览

apache-spark - 无法将 2.3 TB 文件加载到具有 10 TB 内存的苏打水集群中

苏打水 2.2.9 版存在以下问题。我的 Hadoop 集群正在运行 CDH 5.13。根据 H2o 文档,我的内存应该是 H2o/Sparkling-water 集群中数据大小的大约 4 倍。

我可以将 750 GB 的数据文件 (CSV) 导入到具有 4 TB 内存(40 个执行程序,每个 100GB)的苏打水集群中。但是在加载更大的数据文件时遇到问题。此 (CSV) 文件大小约为 2.2 TB(也有 Parquet/Snappy 格式,大小为 550GB)。我创建了一个包含 100 个 100GB/executor 的 Sparkling-water 集群。“解析”步骤运行了大约 60-70%,然后容器开始失败,错误代码为 143 和 255。我已将内存提高到大约 12 TB,但仍然没有成功。

蟒蛇代码是:

有没有人遇到过类似的问题?我的 Hadoop 集群只有 20 TB 的内存,所以在大多数情况下占用 12 TB 的内存本身就很费劲。

对于我的第一个文件,我看到一旦将数据导入集群,它似乎需要大约两倍的内存文件大小,但不知道如何恢复我分配的 4 倍内存,直到苏打水集群关闭。

那么,我可以采取任何其他解决方法将这些数据加载到 H2o 中进行分析,并对可用集群内存进行一些尽职调查?

尚卡尔

0 投票
0 回答
127 浏览

h2o - 为什么 h2o 对来自 spark local 的 spark 集群给出不同的预测?

火花集群模式下的 H2O 给出了与火花本地模式不同的预测。spark local 中的 H2O 比 spark 集群更好,为什么会发生这种情况,你能帮我吗?告诉我这是否是 H2O 行为。正在使用两个数据集。一个用于训练模型,另一个用于评分。
trainingData.csv : 1.8MB (行数为 2211),
testingData.csv : 1.8MB (行数为 2211),
Driver Memory : 1G,
Executors Memory: 1G,
Number Of Executors : 1
正在使用以下命令集群:=>
nohup /usr/hdp/current/spark2-client/bin/spark-submit --class com.inn.sparkrunner.h2o.GradientBoostingAlgorithm --master yarn --driver-memory 1G --executor-memory 1G --num-executors 1 --deploy-mode 集群 spark-runner-1.0.jar > tool.log &

1)主要方法

2)正在创建h2o上下文。

3)正在创建火花会话。

4)设置GBM参数。

0 投票
1 回答
221 浏览

apache-spark - 无法转换火花数据集如果数据集是流数据集,则从 asH2OFrame 到 H2OFrame

我已经有一个深度学习模型。我正在尝试对流数据进行评分。为此,我正在使用 spark 结构化流 api 从 kafka 读取数据。当我尝试将接收到的数据集转换为 H20Frame 时,出现以下错误:

代码示例

是否有任何示例可以解释使用带有流源的火花结构化流的苏打水?

0 投票
2 回答
383 浏览

h2o - Google DataProc 上的 Spark 无法启动苏打水

我正在尝试在 Google DataProc 上使用 H2O 苏打水。我已经在独立的 Spark 上成功运行了 Sparkling Water,现在继续在 DataProc 上使用它。最初,我得到一个关于spark.dynamicAllocation.enabled不被支持的错误,所以我去了大师并开始这样......

启动Sparkling Water的交互是这样的,一旦stage达到30000左右,它就开始研磨,然后在30分钟左右后,出现一串错误:

我尝试了各种方法,例如: - 部署小型(3 个节点)。- 部署 30 个工作人员集群。- 尝试运行 DataProc 映像 1.1 (Spark 2.0)、1.2 (Spark 2.2) 和预览版 (Spark 2.2)。

还尝试了各种 Spark 选项:

有人对 Google DataProc 上的 H2O 有任何运气吗?

详细错误如下:

然后:

0 投票
1 回答
70 浏览

python - 使用自定义格式配置 pysparkling 记录器

我正在尝试生产 Python Sparkling Water 应用程序,并且我想统一我的应用程序 Spark 和 H2O 的日志记录格式。我能够在 Spark 主页中修改 log4j.properties 并使用 Spark 日志实现它,但是,H2O 日志没有应用格式(即缺少时间戳、严重性)。

怎么做?