问题标签 [sparkling-water]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
263 浏览

h2o - 如何在 spark 环境中使 H2OGradientBoostingEstimator 的 H2OGridSearch 可重复(再现性)?

我正在使用以下代码在苏打水中运行 GBM。我已经设置了种子和 score_each_iteration,但是每次检查 AUC 时,即使我设置了种子和 score_each_iteration=True,它仍然会产生不同的结果。

0 投票
1 回答
811 浏览

h2o - 在火花中使用 H2O 创建部分依赖图?

我正在尝试使用以下代码创建部分依赖图

它运行没有错误,并为每个变量生成一个带有 mean_response、stddev_response、std_error_mean_response 的表。但是没有情节。那是因为我在 Spark 环境中运行代码吗?

我正在运行 H2O 集群版本:3.20.0.7 在 Qubole 下使用苏打水

0 投票
1 回答
170 浏览

python - 排除 H2O(python 和 R)中的截距无论如何都会产生非零的截距系数

我正在尝试在 Python 和 R 中使用 H2O 库来生成不包含截距的 GLM。不幸的是,它似乎不起作用。结果完全不正确,截距系数不为零(仅截距的标准化系数为零),但是,这并没有给我正确的预测。

在从模型中排除截距的情况下,我希望对所有其他输入等于 0 的情况的预测也为 0。不是这种情况。该系数非常显着地抵消了预测,实际上,如果我使用我知道应该没有截距的模拟数据设置截距 = True,那么我的截距系数比使用截距 = False 运行相同数据时更接近 0。

在 R 和 Python 中都会发生同样的情况,我不确定我在设置模型时是否做错了什么。

我编写的代码示例只是为了在 R 中测试问题:

我在这里遗漏了一些明显的东西吗?

0 投票
1 回答
137 浏览

python - 从 h2o 中,有没有办法将 N 个文件夹交叉验证结果导出到数据框中?

我正在使用 H2O 苏打水来构建 GBM 模型。我知道我们可以使用下面的代码查看 N 文件夹交叉验证结果:

但是有没有办法将每个文件夹的模型性能保存到数据框中?例如,将每个文件夹的 AUC 保存到数据框中。

0 投票
1 回答
315 浏览

r - rsparkling as_h2o_frame 不起作用:java.lang.OutOfMemoryError:超出 GC 开销限制

我首先将数据集从 csv 导入到 Spark,在 Spark 中进行一些转换,然后尝试将其转换为 H2O Frame。这是我的代码:

csv 文件的大小约为 750MB。最后一行需要很长时间才能运行,并且失败并显示以下消息:

我有 16GB 的内存,数据集可以直接读入 H2O 没有问题。

这是日志文件的一部分:

0 投票
2 回答
116 浏览

scala - 如何使用scala将列类型数字更改为苏打水中的枚举?

我必须使用 Scala 在苏打水中将数字列更改为枚举类型的 h2o 框架以及如何打印 h2o 框架的模式。

0 投票
1 回答
188 浏览

pyspark - H2O 外部后端上的帧上传/创建从 python/pyspark 挂起

我遇到了一个问题,即命令在内部后端h2o.H2OFrame([1,2,3])的 h2o 中创建一个框架,但不是在外部后端。相反,连接并未终止(正在创建框架,但进程挂起)。

看起来帖子/3/ParseSetup没有返回(urllib3似乎卡住了)。更具体地说,从与外部后端连接的 h2o 日志中,一个例子是(我缩短了日期和 IP):

相比之下,内部后端完成了该调用,日志文件包含:

发生的锁存在差异by job null,但它被释放了,所以我怀疑这不是一个关键问题。我在两个后端都未能成功地卷曲该端点,并且正在查看源代码以确定原因。

尽管有挂起过程,但我能够查看上传的框架正在运行h2o.ls(),并且我能够h2o.get_frame(frame_id="myframe_id")在外部后端使用框架来检索框架。

我已经尝试/确认了以下事项:

  • 确认苏打水版本相对于 spark 版本是正确的(即 h2o_pysparkling_2.3 - 对于 Spark 2.3.x,如docs.h2o.ai中所述--- 在我的情况下苏打水 2.3.12 - Spark 2.3。 0.cloudera2);
  • 将苏打水稳定下载到集群并运行./get-extended-h2o.sh cdh5.14,这给了我h2odriver-sw2.3.0-cdh5.14-extended.jar罐子;
  • map reduce作业的各种参数排列。有趣的是,我们的集群非常繁忙,基本端口设置对于稳定性至关重要。此外,我们的子网跨越了与多播混淆的交换机。最终,以下论点成功地提出了后端:
  • 确认我可以查询后端,因为h2o.ls()工作;
  • 上传了 spark 数据框而不是普通列表(同样的问题):

从 YARN 的角度来看,我尝试了简单测试应用程序的客户端和集群模式提交:

并且没有--master yarn--deploy-mode cluster默认客户端模式。

最后,extreboot.py代码是:

有谁知道它为什么会挂起(与内部后端相比),我做错了什么,或者我可以采取哪些步骤来更好地调试它?谢谢!

0 投票
1 回答
71 浏览

intellij-idea - 在 IntelliJ 中创建 H2O 苏打水应用程序

我想在 IntelliJ 中设置一个 Sparkling-Water 应用程序。我在以下位置找到了一个项目的水滴:Sparkling-Water-Droplet

但这已经有一年没有被触及了,我想知道是否有更新的版本或任何其他具有更新版本编号的 Spark、Scala 和 Sparkling-Water 模板。

提前感谢您的任何提示!

0 投票
1 回答
97 浏览

apache-spark - H2O 苏打水是否允许以 Kafka 作为流源进行在线培训

我目前正在试验苏打水的可能性。有一些可能的用例,包括 H2O/Spark 中的数据处理、模型构建和离线训练以及在线流预测。我想知道是否也可以将苏打水与 Kafka 流源一起用于在线培训?

0 投票
1 回答
124 浏览

scala - 如何使用 Scala 从苏打水中的 H2O AutoML 中排除算法

我必须从 AutoMl 模型中排除一些算法。

我正在尝试排除算法,但它失败了。

但它会抛出 Class cast 异常: