“h2o.ai”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

20 浏览

r - tidypredict_sql 是否有挂钩到 h2o.ai

我刚刚发现了这个，我有兴趣探索使用 SQL 存储来计算我的一些学习器输出。我认为数据库调用可能比基本 R 或 Python 快得多。

很棒的小插图： http ://cran.nexr.com/web/packages/tidypredict/vignettes/randomForest.html

基本代码：

它为每棵树提供了 SQL 代码，然后我可以使用该模式聚合这些代码以获得估算器输出。

那么如何将它与 h2o.ai 之类的东西一起使用，尤其是 h2o.randomForest 之类的东西呢？

r dbplyr h2o.ai

0 投票

1 回答

26 浏览

h2o - H2O 模型用于其 predict() 方法的默认目标指标是什么？可以换？

我正在使用 H2ORandomForestEsimator。H2O 模型用于其predict()方法的默认目标指标是什么？ https://docs.h2o.ai/h2o/latest-stable/h2o-py/docs/modeling.html#h2o.automl.H2OAutoML.predict

有没有办法设置这个？（例如，使用在查看方法结果时可以看到的其他度量最大化阈值之一get_params()）

目前正在做类似...

看

h2o h2o.ai

0 投票

0 回答

16 浏览

h2o - H2O 在 lambda 函数中抛出 Unexpected bytecode disassembly @ " + str(s) 错误

有一段代码，例如...

...并且收到类似...的错误

无法真正解释此错误的含义，但我可以确认neg_classandpos_class变量只是str类型。我可以看到代码必须遇到这段代码（https://github.com/h2oai/h2o-3/blob/master/h2o-py/h2o/astfun.py#L213），但不能真的告诉问题是什么。

有人知道这里会发生什么吗？

h2o h2o.ai

0 投票

0 回答

61 浏览

r - R：如何使用 h2o(.ai) randomForest 的对齐设置从游侠获得相同（高质量）的结果

tl;df R::ranger 或 h2o.ai::randomForest 中的什么设置可以解释完全相同数据的非常不同的性能？

背景：
我正在尝试使用一个有些严重不平衡的数据集进行分类，并且正在考虑的优度是 Kappa（来自插入符号）。我有大约 70k 行和大约 400 列，大约 99.3% 是“0”类，而大约 0.7% 是“1”类。

这是游侠输入的片段：

这是 h2o.ai randomForest 输入的片段：

注意：我尝试将它们都设置为最大深度 12，但没有帮助。我尝试将它们都发送到最大深度 20，但并没有改变。我尝试将最大深度设置为空，但这也无济于事。

当我运行 10 个 train-predict-evaluate 循环时，我得到了 ranger 的 kappa 值：

我得到了 h2o.ai randomForest 的 kappa 值：

在我看来，h2o.randomForest 上的 kappa 的平均 kappa 比 ranger 高约 2.56 倍。

问题：那个游侠不是水在做什么？

想法：

h2o.ai 中可能存在动态学习率元素
h2o.ai 中的这个“直方图”和“箱”可能有一些东西

更新（9 月 23 日）：

尝试在 ecdf 域上使用 paa 来人为地压缩直方图，这大大降低了 ranger 的 kappa。结论是，去除列中的多样性会影响系统的性能。
尝试强制平衡课程（一些统计数据的人说这很糟糕）并且 kappa 对他们两个都变得更好（见下文）。还将最小行数更改为 1。

这是护林员：

这是h2o.ai：

不平衡数据的平均 kappa 差异为 0.377，而平衡类的平均 kappa 差异为 0.428。仍然存在差距，但对重采样数据的训练会产生更好的测试集性能。

Ranger 有 2 种平衡类别的方法，一种是通过重采样，另一种是通过“权重”，我认为（我疯狂猜测）与计算最佳分割的位置有关。

以下是 ranger 为加权驱动的类平衡提供的内容：

以下是它为重采样驱动的类平衡提供的内容：

这是我在使用它们时得到的结果：

前两个不重叠，一个显然更好。当它们都被使用时，与仅使用重采样时相比，减少非常轻微（可能可以忽略不计），因此在没有网格搜索和微调的情况下，使用基于重采样的平衡似乎更好。

当我尝试使用“extratrees”而不是“gini”时，这是一种与 h2o 不一致但近似于列子采样的拆分规则，摘要大幅上升：

这是我目前最好的，但这仍然是猜测。

r random-forest imbalanced-data r-ranger h2o.ai

0 投票

0 回答

3 浏览

h2o.ai - 如何禁用或增加 H2O 流 UI 超时会话

一段时间后，H2o 流 UI 会超时。如何指定 H2O UI 流不超时。

h2o.ai

0 投票

2 回答

61 浏览

h2o - H2O 单节点 Vs 集群

我最近开始学习 H2O AutoML。我想知道以下哪个选项效果更好。具有 6GB 内存的单个节点或由三个节点组成的集群，每个节点具有 2GB 内存。

java -Xmx6g -jar h2o.jar -name MyCluster
java -Xmx2g -jar h2o.jar & java -Xmx2g -jar h2o.jar & java -Xmx2g -jar h2o.jar &

如果单节点部署有缺点，您能推荐任何优化性能的方法吗？提前致谢！

h2o h2o.ai

0 投票

1 回答

27 浏览

h2o - 杀死 xxx 因为云不再接受新的 H2O 节点

请帮忙~

我创建了设置副本的 h2o-stateful-set：3，然后我运行了一个 h2o automl 作业，它运行良好。但突然一个 pod 故障，我使用kubectl delete pod h2o-k8s-1删除这个 pod。statefulset 创建一个具有相同名称 h2o-k8s-1 的新 pod。但是问题来了，新的pod无法加入h2o集群，并且job卡住了，日志如下

我知道新的 H2O 节点会在启动期间加入以形成集群。在集群上启动作业后，它会阻止新成员加入。但是如果集群 pod 在训练期间发生故障，我该怎么办？

h2o h2o.ai

0 投票

2 回答

47 浏览

h2o - H2O.ai 产品是否受 log4shell 漏洞影响？

我的问题是开源 H2O-3、开源苏打水和无人驾驶 AI 是否受到 CVE-2021-44228 和 CVE-2021-45046 的影响。

h2o sparkling-water driverless-ai h2o.ai

0 投票

1 回答

30 浏览

h2o - 雪花澄清的 H2O 无人驾驶 AI 部署？

我看到 Snowflake 有一个合作伙伴连接，通过它我可以激活 H2O Driverless AI 并从那里访问 Snowflake。我还看到 H2O Driverless AI 可以通过我们管理自己的集群实例独立部署在任何云集群上。

上面的两个集群有何不同？在通过Snowflake的合作伙伴连接激活的H2O无人驾驶AI中，我们不是不需要管理H2O无人驾驶AI的实例，所以我们要为此收费吗？

在我们自己的 Cloud 集群实例上部署的 H2O Driverless AI 中，是不是我们部署和管理的 H2O Driverless AI 的授权版本？此外，我们是否可以在这些实例上部署 H2O-3（h2o 流）以使用 h20 python 包进行构建，因为我没有看到任何关于无人驾驶 AI 的笔记本用于从头开始开发？

h2o h2o.ai

0 投票

1 回答

30 浏览

scala - 使用苏打水 (Scala) 导入 POJO 模型

我正在尝试将 POJO 模型导入苏打水。我目前正在通过使用以下方法编译模型来导入模型：

在此之后，我使用 hex.genmodel.GenModel 加载它，如下所示：

问题是在进行预测时，我遇到了 URLClassLoader 的问题：

抛出异常：

我不知道为什么，因为我认为 URLClassLoader 没有被使用。我试图用classLoader.close()它来解决它，但它没有用。

我的问题是：有没有更简单的方法将 POJO 模型导入苏打水？如果是这样，这是理想的方式，现在我正在本地编译模型，但我需要将它们保存在 S3 中......有没有办法加载模型而不必在本地编译它，比如将它保存在内存中或其他东西? 如何解决序列化问题？

scala apache-spark pojo sparkling-water h2o.ai

问题标签 [h2o.ai]

Reference