问题标签 [sparkling-water]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

120 问题

0 投票

1 回答

263 浏览

h2o - 如何在 spark 环境中使 H2OGradientBoostingEstimator 的 H2OGridSearch 可重复（再现性）？

我正在使用以下代码在苏打水中运行 GBM。我已经设置了种子和 score_each_iteration，但是每次检查 AUC 时，即使我设置了种子和 score_each_iteration=True，它仍然会产生不同的结果。

h2o sparkling-water

2018-10-02T23:50:35.027

0 投票

1 回答

811 浏览

h2o - 在火花中使用 H2O 创建部分依赖图？

我正在尝试使用以下代码创建部分依赖图

它运行没有错误，并为每个变量生成一个带有 mean_response、stddev_response、std_error_mean_response 的表。但是没有情节。那是因为我在 Spark 环境中运行代码吗？

我正在运行 H2O 集群版本：3.20.0.7 在 Qubole 下使用苏打水

h2o sparkling-water

2018-10-10T03:51:32.510

0 投票

1 回答

170 浏览

python - 排除 H2O（python 和 R）中的截距无论如何都会产生非零的截距系数

我正在尝试在 Python 和 R 中使用 H2O 库来生成不包含截距的 GLM。不幸的是，它似乎不起作用。结果完全不正确，截距系数不为零（仅截距的标准化系数为零），但是，这并没有给我正确的预测。

在从模型中排除截距的情况下，我希望对所有其他输入等于 0 的情况的预测也为 0。不是这种情况。该系数非常显着地抵消了预测，实际上，如果我使用我知道应该没有截距的模拟数据设置截距 = True，那么我的截距系数比使用截距 = False 运行相同数据时更接近 0。

在 R 和 Python 中都会发生同样的情况，我不确定我在设置模型时是否做错了什么。

我编写的代码示例只是为了在 R 中测试问题：

我在这里遗漏了一些明显的东西吗？

python r h2o sparkling-water

2018-10-26T11:23:56.960

0 投票

1 回答

137 浏览

python - 从 h2o 中，有没有办法将 N 个文件夹交叉验证结果导出到数据框中？

我正在使用 H2O 苏打水来构建 GBM 模型。我知道我们可以使用下面的代码查看 N 文件夹交叉验证结果：

但是有没有办法将每个文件夹的模型性能保存到数据框中？例如，将每个文件夹的 AUC 保存到数据框中。

python h2o sparkling-water

2018-11-01T16:04:24.657

0 投票

1 回答

315 浏览

r - rsparkling as_h2o_frame 不起作用：java.lang.OutOfMemoryError：超出 GC 开销限制

我首先将数据集从 csv 导入到 Spark，在 Spark 中进行一些转换，然后尝试将其转换为 H2O Frame。这是我的代码：

csv 文件的大小约为 750MB。最后一行需要很长时间才能运行，并且失败并显示以下消息：

我有 16GB 的内存，数据集可以直接读入 H2O 没有问题。

这是日志文件的一部分：

r apache-spark h2o sparklyr sparkling-water

2018-11-06T14:51:52.413

0 投票

2 回答

116 浏览

scala - 如何使用scala将列类型数字更改为苏打水中的枚举？

我必须使用 Scala 在苏打水中将数字列更改为枚举类型的 h2o 框架以及如何打印 h2o 框架的模式。

scala h2o sparkling-water

2019-02-04T06:21:36.400

0 投票

1 回答

188 浏览

pyspark - H2O 外部后端上的帧上传/创建从 python/pyspark 挂起

我遇到了一个问题，即命令在内部后端h2o.H2OFrame([1,2,3])的 h2o 中创建一个框架，但不是在外部后端。相反，连接并未终止（正在创建框架，但进程挂起）。

看起来帖子/3/ParseSetup没有返回（urllib3似乎卡住了）。更具体地说，从与外部后端连接的 h2o 日志中，一个例子是（我缩短了日期和 IP）：

相比之下，内部后端完成了该调用，日志文件包含：

发生的锁存在差异by job null，但它被释放了，所以我怀疑这不是一个关键问题。我在两个后端都未能成功地卷曲该端点，并且正在查看源代码以确定原因。

尽管有挂起过程，但我能够查看上传的框架正在运行h2o.ls()，并且我能够h2o.get_frame(frame_id="myframe_id")在外部后端使用框架来检索框架。

我已经尝试/确认了以下事项：

确认苏打水版本相对于 spark 版本是正确的（即 h2o_pysparkling_2.3 - 对于 Spark 2.3.x，如docs.h2o.ai中所述--- 在我的情况下苏打水 2.3.12 - Spark 2.3。 0.cloudera2);
将苏打水稳定下载到集群并运行./get-extended-h2o.sh cdh5.14，这给了我h2odriver-sw2.3.0-cdh5.14-extended.jar罐子；
map reduce作业的各种参数排列。有趣的是，我们的集群非常繁忙，基本端口设置对于稳定性至关重要。此外，我们的子网跨越了与多播混淆的交换机。最终，以下论点成功地提出了后端：

确认我可以查询后端，因为h2o.ls()工作；
上传了 spark 数据框而不是普通列表（同样的问题）：

从 YARN 的角度来看，我尝试了简单测试应用程序的客户端和集群模式提交：

并且没有--master yarn和--deploy-mode cluster默认客户端模式。

最后，extreboot.py代码是：

有谁知道它为什么会挂起（与内部后端相比），我做错了什么，或者我可以采取哪些步骤来更好地调试它？谢谢！

pyspark hadoop-yarn h2o sparkling-water

2019-03-16T11:53:02.357

0 投票

1 回答

71 浏览

intellij-idea - 在 IntelliJ 中创建 H2O 苏打水应用程序

我想在 IntelliJ 中设置一个 Sparkling-Water 应用程序。我在以下位置找到了一个项目的水滴：Sparkling-Water-Droplet

但这已经有一年没有被触及了，我想知道是否有更新的版本或任何其他具有更新版本编号的 Spark、Scala 和 Sparkling-Water 模板。

提前感谢您的任何提示！

intellij-idea h2o sparkling-water

2019-03-18T13:30:16.320

0 投票

1 回答

97 浏览

apache-spark - H2O 苏打水是否允许以 Kafka 作为流源进行在线培训

我目前正在试验苏打水的可能性。有一些可能的用例，包括 H2O/Spark 中的数据处理、模型构建和离线训练以及在线流预测。我想知道是否也可以将苏打水与 Kafka 流源一起用于在线培训？

apache-spark pyspark h2o sparkling-water

2019-03-27T13:30:37.570

0 投票

1 回答

124 浏览

scala - 如何使用 Scala 从苏打水中的 H2O AutoML 中排除算法

我必须从 AutoMl 模型中排除一些算法。

我正在尝试排除算法，但它失败了。

但它会抛出 Class cast 异常：

scala sparkling-water

2019-05-07T14:04:39.350

1 2 3 4 5 6 7 8 9 10

问题标签 [sparkling-water]

Reference