问题标签 [h2o.ai]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
20 浏览

r - tidypredict_sql 是否有挂钩到 h2o.ai

我刚刚发现了这个,我有兴趣探索使用 SQL 存储来计算我的一些学习器输出。我认为数据库调用可能比基本 R 或 Python 快得多。

很棒的小插图: http ://cran.nexr.com/web/packages/tidypredict/vignettes/randomForest.html

基本代码:

它为每棵树提供了 SQL 代码,然后我可以使用该模式聚合这些代码以获得估算器输出。

那么如何将它与 h2o.ai 之类的东西一起使用,尤其是 h2o.randomForest 之类的东西呢?

0 投票
1 回答
26 浏览

h2o - H2O 模型用于其 predict() 方法的默认目标指标是什么?可以换?

我正在使用 H2ORandomForestEsimator。H2O 模型用于其predict()方法的默认目标指标是什么? https://docs.h2o.ai/h2o/latest-stable/h2o-py/docs/modeling.html#h2o.automl.H2OAutoML.predict

有没有办法设置这个?(例如,使用在查看方法结果时可以看到的其他度量最大化阈值之一get_params()

目前正在做类似...

0 投票
0 回答
16 浏览

h2o - H2O 在 lambda 函数中抛出 Unexpected bytecode disassembly @ " + str(s) 错误

有一段代码,例如...

...并且收到类似...的错误

无法真正解释此错误的含义,但我可以确认neg_classandpos_class变量只是str类型。我可以看到代码必须遇到这段代码(https://github.com/h2oai/h2o-3/blob/master/h2o-py/h2o/astfun.py#L213),但不能真的告诉问题是什么。

有人知道这里会发生什么吗?

0 投票
0 回答
61 浏览

r - R:如何使用 h2o(.ai) randomForest 的对齐设置从游侠获得相同(高质量)的结果

tl;df R::ranger 或 h2o.ai::randomForest 中的什么设置可以解释完全相同数据的非常不同的性能?

背景:
我正在尝试使用一个有些严重不平衡的数据集进行分类,并且正在考虑的优度是 Kappa(来自插入符号)。我有大约 70k 行和大约 400 列,大约 99.3% 是“0”类,而大约 0.7% 是“1”类。

这是游侠输入的片段:

这是 h2o.ai randomForest 输入的片段:

注意:我尝试将它们都设置为最大深度 12,但没有帮助。我尝试将它们都发送到最大深度 20,但并没有改变。我尝试将最大深度设置为空,但这也无济于事。

当我运行 10 个 train-predict-evaluate 循环时,我得到了 ranger 的 kappa 值:

我得到了 h2o.ai randomForest 的 kappa 值:

在我看来,h2o.randomForest 上的 kappa 的平均 kappa 比 ranger 高约 2.56 倍。

问题:那个游侠不是水在做什么?

想法:

  • h2o.ai 中可能存在动态学习率元素
  • h2o.ai 中的这个“直方图”和“箱”可能有一些东西

更新(9 月 23 日):

  • 尝试在 ecdf 域上使用 paa 来人为地压缩直方图,这大大降低了 ranger 的 kappa。结论是,去除列中的多样性会影响系统的性能。
  • 尝试强制平衡课程(一些统计数据的人说这很糟糕)并且 kappa 对他们两个都变得更好(见下文)。还将最小行数更改为 1。

这是护林员:

这是h2o.ai:

不平衡数据的平均 kappa 差异为 0.377,而平衡类的平均 kappa 差异为 0.428。仍然存在差距,但对重采样数据的训练会产生更好的测试集性能。

Ranger 有 2 种平衡类别的方法,一种是通过重采样,另一种是通过“权重”,我认为(我疯狂猜测)与计算最佳分割的位置有关。

以下是 ranger 为加权驱动的类平衡提供的内容:

以下是它为重采样驱动的类平衡提供的内容:

这是我在使用它们时得到的结果:

前两个不重叠,一个显然更好。当它们都被使用时,与仅使用重采样时相比,减少非常轻微(可能可以忽略不计),因此在没有网格搜索和微调的情况下,使用基于重采样的平衡似乎更好。

当我尝试使用“extratrees”而不是“gini”时,这是一种与 h2o 不一致但近似于列子采样的拆分规则,摘要大幅上升:

这是我目前最好的,但这仍然是猜测。

0 投票
0 回答
3 浏览

h2o.ai - 如何禁用或增加 H2O 流 UI 超时会话

一段时间后,H2o 流 UI 会超时。如何指定 H2O UI 流不超时。

0 投票
2 回答
61 浏览

h2o - H2O 单节点 Vs 集群

我最近开始学习 H2O AutoML。我想知道以下哪个选项效果更好。具有 6GB 内存的单个节点或由三个节点组成的集群,每个节点具有 2GB 内存。

  1. java -Xmx6g -jar h2o.jar -name MyCluster
  2. java -Xmx2g -jar h2o.jar & java -Xmx2g -jar h2o.jar & java -Xmx2g -jar h2o.jar &

如果单节点部署有缺点,您能推荐任何优化性能的方法吗?提前致谢!

0 投票
1 回答
27 浏览

h2o - 杀死 xxx 因为云不再接受新的 H2O 节点

请帮忙~

我创建了设置副本的 h2o-stateful-set:3,然后我运行了一个 h2o automl 作业,它运行良好。但突然一个 pod 故障,我使用kubectl delete pod h2o-k8s-1删除这个 pod。statefulset 创建一个具有相同名称 h2o-k8s-1 的新 pod。但是问题来了,新的pod无法加入h2o集群,并且job卡住了,日志如下

我知道新的 H2O 节点会在启动期间加入以形成集群。在集群上启动作业后,它会阻止新成员加入。但是如果集群 pod 在训练期间发生故障,我该怎么办?

0 投票
2 回答
47 浏览

h2o - H2O.ai 产品是否受 log4shell 漏洞影响?

我的问题是开源 H2O-3、开源苏打水和无人驾驶 AI 是否受到 CVE-2021-44228 和 CVE-2021-45046 的影响。

0 投票
1 回答
30 浏览

h2o - 雪花澄清的 H2O 无人驾驶 AI 部署?

我看到 Snowflake 有一个合作伙伴连接,通过它我可以激活 H2O Driverless AI 并从那里访问 Snowflake。我还看到 H2O Driverless AI 可以通过我们管理自己的集群实例独立部署在任何云集群上。

上面的两个集群有何不同?在通过Snowflake的合作伙伴连接激活的H2O无人驾驶AI中,我们不是不需要管理H2O无人驾驶AI的实例,所以我们要为此收费吗?

在我们自己的 Cloud 集群实例上部署的 H2O Driverless AI 中,是不是我们部署和管理的 H2O Driverless AI 的授权版本?此外,我们是否可以在这些实例上部署 H2O-3(h2o 流)以使用 h20 python 包进行构建,因为我没有看到任何关于无人驾驶 AI 的笔记本用于从头开始开发?

0 投票
1 回答
30 浏览

scala - 使用苏打水 (Scala) 导入 POJO 模型

我正在尝试将 POJO 模型导入苏打水。我目前正在通过使用以下方法编译模型来导入模型:

在此之后,我使用 hex.genmodel.GenModel 加载它,如下所示:

问题是在进行预测时,我遇到了 URLClassLoader 的问题:

抛出异常:

我不知道为什么,因为我认为 URLClassLoader 没有被使用。我试图用classLoader.close()它来解决它,但它没有用。

我的问题是:有没有更简单的方法将 POJO 模型导入苏打水?如果是这样,这是理想的方式,现在我正在本地编译模型,但我需要将它们保存在 S3 中......有没有办法加载模型而不必在本地编译它,比如将它保存在内存中或其他东西? 如何解决序列化问题?