问题标签 [sparkling-water]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
h2o - 如何在 spark 环境中使 H2OGradientBoostingEstimator 的 H2OGridSearch 可重复(再现性)?
我正在使用以下代码在苏打水中运行 GBM。我已经设置了种子和 score_each_iteration,但是每次检查 AUC 时,即使我设置了种子和 score_each_iteration=True,它仍然会产生不同的结果。
h2o - 在火花中使用 H2O 创建部分依赖图?
我正在尝试使用以下代码创建部分依赖图
它运行没有错误,并为每个变量生成一个带有 mean_response、stddev_response、std_error_mean_response 的表。但是没有情节。那是因为我在 Spark 环境中运行代码吗?
我正在运行 H2O 集群版本:3.20.0.7 在 Qubole 下使用苏打水
python - 排除 H2O(python 和 R)中的截距无论如何都会产生非零的截距系数
我正在尝试在 Python 和 R 中使用 H2O 库来生成不包含截距的 GLM。不幸的是,它似乎不起作用。结果完全不正确,截距系数不为零(仅截距的标准化系数为零),但是,这并没有给我正确的预测。
在从模型中排除截距的情况下,我希望对所有其他输入等于 0 的情况的预测也为 0。不是这种情况。该系数非常显着地抵消了预测,实际上,如果我使用我知道应该没有截距的模拟数据设置截距 = True,那么我的截距系数比使用截距 = False 运行相同数据时更接近 0。
在 R 和 Python 中都会发生同样的情况,我不确定我在设置模型时是否做错了什么。
我编写的代码示例只是为了在 R 中测试问题:
我在这里遗漏了一些明显的东西吗?
python - 从 h2o 中,有没有办法将 N 个文件夹交叉验证结果导出到数据框中?
我正在使用 H2O 苏打水来构建 GBM 模型。我知道我们可以使用下面的代码查看 N 文件夹交叉验证结果:
但是有没有办法将每个文件夹的模型性能保存到数据框中?例如,将每个文件夹的 AUC 保存到数据框中。
r - rsparkling as_h2o_frame 不起作用:java.lang.OutOfMemoryError:超出 GC 开销限制
我首先将数据集从 csv 导入到 Spark,在 Spark 中进行一些转换,然后尝试将其转换为 H2O Frame。这是我的代码:
csv 文件的大小约为 750MB。最后一行需要很长时间才能运行,并且失败并显示以下消息:
我有 16GB 的内存,数据集可以直接读入 H2O 没有问题。
这是日志文件的一部分:
scala - 如何使用scala将列类型数字更改为苏打水中的枚举?
我必须使用 Scala 在苏打水中将数字列更改为枚举类型的 h2o 框架以及如何打印 h2o 框架的模式。
pyspark - H2O 外部后端上的帧上传/创建从 python/pyspark 挂起
我遇到了一个问题,即命令在内部后端h2o.H2OFrame([1,2,3])
的 h2o 中创建一个框架,但不是在外部后端。相反,连接并未终止(正在创建框架,但进程挂起)。
看起来帖子/3/ParseSetup
没有返回(urllib3
似乎卡住了)。更具体地说,从与外部后端连接的 h2o 日志中,一个例子是(我缩短了日期和 IP):
相比之下,内部后端完成了该调用,日志文件包含:
发生的锁存在差异by job null
,但它被释放了,所以我怀疑这不是一个关键问题。我在两个后端都未能成功地卷曲该端点,并且正在查看源代码以确定原因。
尽管有挂起过程,但我能够查看上传的框架正在运行h2o.ls()
,并且我能够h2o.get_frame(frame_id="myframe_id")
在外部后端使用框架来检索框架。
我已经尝试/确认了以下事项:
- 确认苏打水版本相对于 spark 版本是正确的(即 h2o_pysparkling_2.3 - 对于 Spark 2.3.x,如docs.h2o.ai中所述--- 在我的情况下苏打水 2.3.12 - Spark 2.3。 0.cloudera2);
- 将苏打水稳定下载到集群并运行
./get-extended-h2o.sh cdh5.14
,这给了我h2odriver-sw2.3.0-cdh5.14-extended.jar
罐子; - map reduce作业的各种参数排列。有趣的是,我们的集群非常繁忙,基本端口设置对于稳定性至关重要。此外,我们的子网跨越了与多播混淆的交换机。最终,以下论点成功地提出了后端:
- 确认我可以查询后端,因为
h2o.ls()
工作; - 上传了 spark 数据框而不是普通列表(同样的问题):
从 YARN 的角度来看,我尝试了简单测试应用程序的客户端和集群模式提交:
并且没有--master yarn
和--deploy-mode cluster
默认客户端模式。
最后,extreboot.py
代码是:
有谁知道它为什么会挂起(与内部后端相比),我做错了什么,或者我可以采取哪些步骤来更好地调试它?谢谢!
intellij-idea - 在 IntelliJ 中创建 H2O 苏打水应用程序
我想在 IntelliJ 中设置一个 Sparkling-Water 应用程序。我在以下位置找到了一个项目的水滴:Sparkling-Water-Droplet
但这已经有一年没有被触及了,我想知道是否有更新的版本或任何其他具有更新版本编号的 Spark、Scala 和 Sparkling-Water 模板。
提前感谢您的任何提示!
apache-spark - H2O 苏打水是否允许以 Kafka 作为流源进行在线培训
我目前正在试验苏打水的可能性。有一些可能的用例,包括 H2O/Spark 中的数据处理、模型构建和离线训练以及在线流预测。我想知道是否也可以将苏打水与 Kafka 流源一起用于在线培训?
scala - 如何使用 Scala 从苏打水中的 H2O AutoML 中排除算法
我必须从 AutoMl 模型中排除一些算法。
我正在尝试排除算法,但它失败了。
但它会抛出 Class cast 异常: