“sparkling-water”的相关标签问题

0 投票

0 回答

692 浏览

scala - java.lang.IllegalArgumentException：字符串向量上不允许操作

在 flightToORD 上执行任何函数时，我们收到以下错误消息。我们只能在这里从输入文件创建 Spark Data Frame，这就是我们创建 Spark Data Frame 并将其转换为 H2O 的原因

我正在使用 sparkling-water-2.0.25 和 Spark 2.0.2

2018-03-16T10:51:53.130

0 投票

1 回答

122 浏览

apache-spark - 强制 H2O 苏打水集群以 YARN 模式在特定机器上启动

使用的工具：

火花2
苏打水 (H2O)
齐柏林笔记本
Pyspark 代码

我从我的 Zeppelin 笔记本以内部模式启动 H2O，因为我的环境是 YARN。我正在使用基本命令：

我的问题是我在一台弱机器上安装了 zeppelin 服务器，当我从 ZEPPELIN 运行我的代码时，H2O 集群会自动使用其 IP 在该机器上启动。驱动程序在那里运行，我受到 H2O 消耗的驱动程序内存的限制。我有 4 台具有 100GB 和许多内核的强大工作节点机器，集群在我运行模型时使用它们，但我希望 H2O 集群在其中一台工作机器上启动并在那里运行驱动程序，但我没有找到一种迫使 H2O 这样做的方法。

我想知道是否有解决方案，或者我是否必须在工作机器上安装 zeppelin 服务器。

如果有可能的解决方案，我们将不胜感激

apache-spark h2o apache-zeppelin sparkling-water

2018-03-21T10:25:40.613

0 投票

2 回答

99 浏览

h2o - 在同一个集群上运行多个苏打水实例

在同一驱动程序上创建的两个并发 h2ocontext 似乎相互冲突。当一个运行时，另一个会抛出错误。我们可以做一些配置，使两个苏打水实例可以并行运行吗？

h2o sparkling-water

2018-03-22T21:55:14.447

0 投票

2 回答

1139 浏览

h2o - 如何将预测与测试帧结合起来

将预测帧合并到包含特征的 h2oframe 的任务不是通过 water.rapids.Merge 的合并方法完成的。

如何使用merge方法将预测帧合并到特征帧，并让我知道该方法的参数描述，以便可以正确调用方法？

int[][] id_maps, int[] leftCols,int[] riteCols参数是什么？

将预测框架合并到特征框架的正确方法是什么？

h2o sparkling-water

2018-03-23T11:36:48.957

0 投票

1 回答

773 浏览

scala - 如何从 scala 中的苏打水中将 h2o 模型导出为 MOJO，由 EasyPredictModelWrapper 加载

我的目标是导出一个使用 scala（使用苏打水）在 spark 上训练的 h2o 模型，这样我就可以在没有 Spark 的应用程序中导入它。

因此：

使用 scala（文档仅显示 r 和 python 的示例）
导出使用苏打水（带火花的水）构建的模型
在 scala 中导入模型（没有 spark 也没有 h2o 集群，只有hex-genmodel包）

因此，我使用ModelSerializationSupportto export 和MojoModel.loadto import

失败

似乎 mojo 导出器没有使用与hex.genmodel（显然是 zip）中预期的格式相同的格式

在 h2o 2.1.23 上运行（构建集群时 2.1.24 失败，如https://0xdata.atlassian.net/browse/SW-776上所报告）和 spark 2.1

- 更新：

使用 ModelSerializationSupport 类加载它自己的导出也失败了，同样的例外：

H2OModel 导出和加载
作为 H2OModel 加载回来（因此使用苏打水）确实有效：

H2OMOJOModel 导出和加载
加载它H2OMOJOModel确实有效（从实现中复制H2OGBM）：

使用 MojoModel 导入的 H2OGBM 导出
尝试使用常规导入MojoModel失败：

除了以下例外：

scala h2o sparkling-water

2018-03-27T14:30:29.470

0 投票

0 回答

308 浏览

apache-spark - 无法将 2.3 TB 文件加载到具有 10 TB 内存的苏打水集群中

苏打水 2.2.9 版存在以下问题。我的 Hadoop 集群正在运行 CDH 5.13。根据 H2o 文档，我的内存应该是 H2o/Sparkling-water 集群中数据大小的大约 4 倍。

我可以将 750 GB 的数据文件 (CSV) 导入到具有 4 TB 内存（40 个执行程序，每个 100GB）的苏打水集群中。但是在加载更大的数据文件时遇到问题。此 (CSV) 文件大小约为 2.2 TB（也有 Parquet/Snappy 格式，大小为 550GB）。我创建了一个包含 100 个 100GB/executor 的 Sparkling-water 集群。“解析”步骤运行了大约 60-70%，然后容器开始失败，错误代码为 143 和 255。我已将内存提高到大约 12 TB，但仍然没有成功。

蟒蛇代码是：

有没有人遇到过类似的问题？我的 Hadoop 集群只有 20 TB 的内存，所以在大多数情况下占用 12 TB 的内存本身就很费劲。

对于我的第一个文件，我看到一旦将数据导入集群，它似乎需要大约两倍的内存文件大小，但不知道如何恢复我分配的 4 倍内存，直到苏打水集群关闭。

那么，我可以采取任何其他解决方法将这些数据加载到 H2o 中进行分析，并对可用集群内存进行一些尽职调查？

尚卡尔

apache-spark hadoop pyspark h2o sparkling-water

2018-03-28T15:17:57.840

0 投票

0 回答

127 浏览

h2o - 为什么 h2o 对来自 spark local 的 spark 集群给出不同的预测？

火花集群模式下的 H2O 给出了与火花本地模式不同的预测。spark local 中的 H2O 比 spark 集群更好，为什么会发生这种情况，你能帮我吗？告诉我这是否是 H2O 行为。正在使用两个数据集。一个用于训练模型，另一个用于评分。
trainingData.csv : 1.8MB (行数为 2211),
testingData.csv : 1.8MB (行数为 2211),
Driver Memory : 1G,
Executors Memory: 1G,
Number Of Executors : 1
正在使用以下命令集群：=>
nohup /usr/hdp/current/spark2-client/bin/spark-submit --class com.inn.sparkrunner.h2o.GradientBoostingAlgorithm --master yarn --driver-memory 1G --executor-memory 1G --num-executors 1 --deploy-mode 集群 spark-runner-1.0.jar > tool.log &

1)主要方法

2）正在创建h2o上下文。

3）正在创建火花会话。

4）设置GBM参数。

h2o sparkling-water

2018-03-30T15:11:41.453

0 投票

1 回答

221 浏览

apache-spark - 无法转换火花数据集如果数据集是流数据集，则从 asH2OFrame 到 H2OFrame

我已经有一个深度学习模型。我正在尝试对流数据进行评分。为此，我正在使用 spark 结构化流 api 从 kafka 读取数据。当我尝试将接收到的数据集转换为 H20Frame 时，出现以下错误：

代码示例

是否有任何示例可以解释使用带有流源的火花结构化流的苏打水？

apache-spark h2o sparkling-water spark-structured-streaming

2018-04-05T11:48:02.710

0 投票

2 回答

383 浏览

h2o - Google DataProc 上的 Spark 无法启动苏打水

我正在尝试在 Google DataProc 上使用 H2O 苏打水。我已经在独立的 Spark 上成功运行了 Sparkling Water，现在继续在 DataProc 上使用它。最初，我得到一个关于spark.dynamicAllocation.enabled不被支持的错误，所以我去了大师并开始这样......

启动Sparkling Water的交互是这样的，一旦stage达到30000左右，它就开始研磨，然后在30分钟左右后，出现一串错误：

我尝试了各种方法，例如： - 部署小型（3 个节点）。- 部署 30 个工作人员集群。- 尝试运行 DataProc 映像 1.1 (Spark 2.0)、1.2 (Spark 2.2) 和预览版 (Spark 2.2)。

还尝试了各种 Spark 选项：

有人对 Google DataProc 上的 H2O 有任何运气吗？

详细错误如下：

然后：

h2o google-cloud-dataproc sparkling-water

2018-04-11T12:12:38.743

0 投票

1 回答

70 浏览

python - 使用自定义格式配置 pysparkling 记录器

我正在尝试生产 Python Sparkling Water 应用程序，并且我想统一我的应用程序 Spark 和 H2O 的日志记录格式。我能够在 Spark 主页中修改 log4j.properties 并使用 Spark 日志实现它，但是，H2O 日志没有应用格式（即缺少时间戳、严重性）。

怎么做？

python log4j h2o sparkling-water

2018-04-19T12:15:03.983

问题标签 [sparkling-water]

Reference