问题标签 [automl]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
487 浏览

python-2.7 - 导入 H2OAutoML 库 - “没有名为 AutoML 的模块”

还有其他人无法在 python2.7 和/或 3.6 中加载 H2OAutoML 库吗?

我已经按照http://h2o-release.s3.amazonaws.com/h2o/master/3888/docs-website/h2o-docs/automl.html上的示例尝试了这些(替代方案) ,但是两个导入都没有成功加载AutoML 库?也就是说,我尝试过 from h2o.AutoML import H2OAutoML(或 from h2o.automl import H2OAutoML)。

任何帮助表示赞赏。

0 投票
2 回答
154 浏览

r - 无法在 automl() 用例中加载非获胜模型

我正在使用带有代码片段的automl函数,如下所示

通读文档后,我找不到如何加载其他模型的结果,排行榜显示他们的model_id。如果我们可以加载这些模型,或者至少看到它们的参数,那将是很有价值的。

0 投票
1 回答
870 浏览

python - 自动机器学习 python 等效代码

有什么方法可以从 auto-sklearn 的独立 python 脚本中提取自动生成的机器学习管道?

以下是使用 auto-sklearn 的示例代码:

以某种方式生成自动等效的python代码会很好。

相比之下,使用 TPOT 时,我们可以获得如下的独立管道:

并且在检查tpot-mnist-pipeline.py整个 ML 管道时可以看到:

上面的示例与此处找到的关于自动化有点浅的机器学习的现有帖子有关。

0 投票
2 回答
878 浏览

r - 如何迭代训练 h2o automl 模型

我试图训练使用h2o.automl(). 但训练因超时而退出。我知道max_runtime_secs可以设置为更高的数字。但是,如果我们可以训练 1 小时,然后将其保存在某个地方,那就太好了。第二天从第一天离开的地方再次训练它。

怎么做 ?

我尝试过设置project_name- 但退出时没有保存任何内容。所以如果我们关闭电脑并重新启动,它是没有用的。

我为此使用了以下代码:

链接到 train.csv:http ://www.mediafire.com/file/qj7yiju15ncgnax/train.csv

0 投票
2 回答
724 浏览

r - 如何处理 H2O 算法中的倾斜响应

在我的问题数据集中,响应变量非常偏左。我试图用 和 来拟合模型,h2o.randomForest()如下h2o.gbm()所示。在这两种情况下,我可以调整min_split_improvementmin_rows避免过度拟合。但是对于这些模型,我看到尾部观察的错误非常高。我曾尝试使用 weights_column对尾部观察进行过采样,并对其他观察进行过采样,但这无济于事。

我已经尝试了h2o.automl()h2o 包的功能来解决这个问题以获得更好的性能。但是,我看到明显的过度拟合。我不知道h2o.automl()控制过度拟合的任何参数。

有谁知道避免过度拟合的方法h2o.automl()

编辑

log转换后的响应的分布如下所示。在艾琳的建议下 在此处输入图像描述

EDIT2: 原始响应的分布。

在此处输入图像描述

0 投票
1 回答
1259 浏览

python - 减小 auto-sklearn 模型大小

我正在使用auto-sklearn根据一些数据生成回归模型。运行几个小时后,我将生成的模型保存到磁盘以供以后与 joblib 一起使用,生成的文件大小为 2.5 GiB。

如何减小已保存模型的文件大小?我只需要能够对未来的模型进行预测。

0 投票
1 回答
371 浏览

h2o - “bestofFamily”的 h2o 子集

AutoML 生成两个学习器,一个包含“所有”,另一个是“最好的家庭”的子集。

有什么方法可以不手动将组件和堆叠的集成聚合器保存到磁盘,以便将“最好的家庭”视为独立的黑盒,可以存储、重新加载和使用,而无需 1000 名价值较低的学习者存在于同一个空间?

如果是这样,我该怎么做?

0 投票
0 回答
93 浏览

h2o - h2o autoML 跟踪收敛

autoML 在时钟上停止。我比较了两个自动 ML,其中一个使用另一个必须做出相同预测的子集,并且在 3600 秒运行时,更完整的模型看起来更好。我重复了 5000 秒的重新运行,子集模型看起来更好。他们交换了位置,这不应该发生。

我认为是收敛。 有没有办法跟踪堆叠集成学习器的收敛历史以确定它们是否相对稳定? 我们有用于并行和串行 CART 合奏的功能。我不明白为什么异构合奏不会做同样的事情。

我有大量数据,尤其是交叉验证,我不想认为差异是因为训练集与验证集随机抽取。

我在相对高性能的硬件上运行,所以我不认为这是“运行时间太短”。我的“所有”型号数量在数百到一千之间,物有所值。

0 投票
1 回答
255 浏览

h2o - h2o automl排行榜框架在R中不起作用

我目前在 R 环境中使用 h2o automl 功能,我看到排行榜在日志中没有显示,即使我已经向它提供了数据集。感谢有人能回答

0 投票
1 回答
683 浏览

r - H20 - 超出 ncpus

我正在尝试运行 h2o.automl() 但它一直失败,因为我的 ncpus 用完了。

我通过请求 47 个线程来启动我的 h20 会话:h2o.init(nthreads=47)

我在开始时提供了足够数量的 ncpus 和内存:

R连接H2O集群: H2O集群正常运行时间:2秒286毫秒 H2O集群时区:欧洲/伦敦 H2O数据解析时区:UTC H2O集群版本:3.18.0.4 H2O集群版本年龄:18天 H2O集群名称:H2O_started_from_R_cmorgan1_gvi181 H2O集群节点总数:1 H2O 集群总内存:26.67 GB H2O 集群总内核:40 H2O 集群允许内核:40 H2O 集群健康:TRUE H2O 连接 ip:localhost H2O 连接端口:54321 H2O 连接代理:NA H2O 内部安全:FALSE H2O API扩展:XGBoost、Algos、AutoML、Core V3、Core V4 R 版本:R 版本 3.4.1 (2017-06-30)

但是,过了一段时间(完成度为 38%)后,它会中断并告诉我我没有足够的 ncpus。

|=================================================== ======================| 100% |==== |======= |=========|==========|============= =
|================ |=================|===========|= ==
|============================
| 38%=>> PBS:作业被杀:ncpus 33.43 超出限制 32(总和)

============================================

有没有人遇到过这个问题,你有解决办法吗?我不相信我的数据大小异常,它有 29 个缩放参数和 94,000 行数据。

提前感谢,