问题标签 [h2o.ai]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何在 R h2o.ai 中执行分层随机分裂?
我喜欢 ml 的 h2o.ai 工具。它是java,但它很熟悉并且做得不错。
以下是有关一般分层拆分的信息:
我有一个非常不平衡的变量,所以我需要在 h2o.ai 中基于 R-gui 对该变量的数据进行分层拆分。有没有办法做到这一点?
在 h2o.ai 工具中用于拆分数据的 R 命令是这样的:
splitframe 变量中没有分层选项。我在 Flow(运行 java 的 Web 界面)工具中知道它们允许在交叉验证方法中平衡类,因此它在某处进行分层拆分。
我讨厌在基础 R 中执行此操作,因为 R 中的内存处理不如 h2o.ai 有效,而且我的数据量很大。
r - 关于 h2o.grid() 函数中的并行性的问题
我尝试使用h2o.grid()
h2o 包中的函数使用 R 进行一些调整,当我将参数设置为parallelism
大于 1 时,它总是显示警告
某些模型由于失败而未构建,有关更多详细信息,请运行 `summary(grid_object, show_stack_traces = TRUE)
并且最终网格对象中的model_ids包含很多以等结尾的模型_cv_1
,_cv_2
而且模型的数量不等于我max_models
的in search_criteria
list的设置,我认为它们只是cv
过程中的模型,而不是最终的模型。
当我设置parallelism
大于 1 时:
当我保留默认值或设置为 1 时,结果是正常的,所有模型都以等parallelism
结尾。_model_1
_model_2
当我保留“并行度”默认值或将其设置为 1 时:
这是我的代码:
那么如何parallelism
正确使用 inh2o.grid()
呢?感谢您的帮助!
h2o - H2O拆分(节点改进)方法
H20 在文档中说,对回归 gbms 的特征进行拆分是基于平方误差的减少。
这个平方误差是基于节点残差,即 (resid - mean resid)^2 还是真实响应,即 (response - mean response)?我正在使用伽玛/泊松分布。
在伽马/泊松的情况下,损失是偏差,那么为什么要使用平方误差呢?
h2o - H2O autoML 在默认时间预算后不会停止
您的 H2O 是否曾经超过默认的训练时间预算(1 小时)而您不得不停止它?你对这个问题的解释是什么?
我对这个解决方案非常熟悉,这是第一次使用包含 20k 个实例、40 个特征和 103 个类的多类数据集。然而,令人惊讶的是,当我将时间预算降低到 1500 万(例如)时,h2O 会返回一个模型并进行预测。
谢谢,
亚辛
heroku - 将 H2O Wave 应用程序部署到 Heroku?
我对部署 python Web 应用程序相对较新,但我试图将我的 H2O wave 应用程序部署到 Heroku,但一直遇到问题,我在文档中找不到太多帮助。
如果我使用命令(在 SDK for wave 中)启动服务器,一切都在本地正常工作:
然后在项目的根目录下运行:
对于部署,除了我的 wave python 文件之外,我只有 arequirements.txt
和 a Procfile
:
这就是我的 foo (tennis_pred_app.py) 的样子(简化):
我目前遇到的错误是:
gpu - 如何在 H2O AutoML 中禁用 GPU
当我使用 H2O AutoML 进行实验时,出现错误:“在抛出 'thrust::system::system_error' what():parallel_for failed: invalid resource handle 的实例后调用终止”。此错误消息来自XGBoost,这是因为超出了 GPU 限制。
在使用常规 XGBoost 时,我将 cuda 可见设备参数设置为空白以禁用 GPU。然而,这个论点似乎在 H2O AutoML - XGBoost 实现中被忽略了。
目前,只有 xgboost可以在 H2O AutoML 中的 gpu 上运行。
有人知道如何在 H2O AutoML 中禁用 GPU 的问题吗?
作为一种解决方法,我暂时排除了 XGBoost 算法来运行我的实验。当我排除 XGBoost 但我不想放弃 XGBoost 的功能时,麻烦就过去了。
driverless-ai - H20 无人驾驶 AI,无法加载自定义配方
我正在使用 H2O DAI 1.9.0.6。我正在尝试在专家设置上加载自定义配方(使用自定义配方的 BERT 预保留模型)。我正在使用本地文件上传。但是上传没有发生。没有错误,没有进展,什么都没有。在那次活动之后,我无法在 RECIPE 选项卡下看到这个模型。
从下面的 URL 中获取示例食谱并根据我的需要进行修改。感谢创造这个食谱的人。
https://github.com/h2oai/driverlessai-recipes/blob/master/models/nlp/portuguese_bert.py
定制食谱
java - 使用 Google Colab 时如何访问 H2O Flow
有谁知道在使用 Google Colab 时如何访问 H2O Flow?
我的代码如下:
此代码显示以下输出:
并单击https://0258qgrdz6tx-496ff2e9c6d22116-54321-colab.googleusercontent.com/会返回 HTTP 500 错误,并显示“未实现”消息而不是 H2O 流(Web UI)页面。
似乎消息是由Persist类返回的。
python - H2O 中的 GLRM - 性能指标返回 NaN
我正在使用广义低秩估计器来推断数据集中有关传感器读数的缺失值。我正在使用 H2O 来创建和训练模型:
训练模型后,提供的有关性能指标(MSE 和 RMSE)的信息都返回 NaN。有人知道为什么吗?首先我认为它可能与数据集中的 NaN 条目有关,但我已经尝试过一个完整的条目,并且出现了同样的问题。我需要这些信息来对一些模型参数执行网格搜索以选择最佳参数。
非常感谢,
路易莎·诺盖拉