问题标签 [automl]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
960 浏览

python - auto-sklearn 中的交叉验证

我正在尝试在 auto-sklearn 中建立一个具有 10 倍交叉验证的预测模型。我的数据集有大约 40k 行和 80 个特征。这是我的代码(其中 X 是我的特征,y 是连续结果变量):

最后一行的输出对我来说有点混乱

[结果文本较长,但由于字符限制,我已将其删除]

没有mean_train_score,似乎mean_test_score有很多遗漏。难道我做错了什么?当我让我的模型运行更长时间时,我会遇到同样的问题。当我运行 10 倍交叉验证时,我的 R2 也比不运行时更差

任何指导将不胜感激。雅拉。

0 投票
0 回答
92 浏览

python - 小批量模式的 Python SMAC 合理 runco​​unt_limit 值

我正在尝试使用SMAC v3进行超参数优化。

我想用固定数量的目标函数 ( tae_runner ) 计算来限制优化过程,并在“小批量”模式下运行它:
首先,我用一些预算运行 SMAC,然后添加更多并使其继续它停止的地方。

我如何确定这个计算预算的合理大小?
让我在下面解释我的担忧:

我的目标函数相当昂贵,计算可能需要 1-10 秒甚至更长时间。因此,我决定使用小批量广告执行一些额外的步骤,这些步骤是针对我的问题的。

这段代码似乎有效。这是我在文档中找到的:

wallclock_limit、runco​​unt_limit和 tuner-timeout 分别用于控制最大 wallclock-time、算法调用次数和用于优化的 cpu-time。

据我从存储库中的代码了解,此代码的工作原理如下:

1) SMAC 包装 SMBO 并将 Scenario 和其他参数传递给它。

2)有主SMBO循环,不断产生新的挑战者(恰好有10K,包括交错随机数):

并将它们与现任者 (迄今为止最好的配置)进行比较:

顺便说一句,如果我只设置了runco​​unt_limit 这里的 time_bound 是多少?

3) 如果超出预算,则退出主 smbo 循环

而其余的挑战者,在生成、成本预测和排序的地方,都被丢弃了。

我担心的是:如果 runco​​unt_limit 值太小,例如110类似的东西,可能会浪费大量资源来生成、排序和丢弃大量配置(5K)以及启动和停止的开销每个小批量的 smac。
另一方面,如果我将runco​​unt_limit设置为 10K 的倍数,它就不再是小批量了。

你能建议一种方法来确定这些批次的大小吗?

0 投票
2 回答
1269 浏览

h2o - 如何获取由 h2o automl 生成的非领导者模型的详细信息?

运行后automl(3类分类),可以看到模型列表如下: model_id mean_per_class_error StackedEnsemble_BestOfFamily_0_AutoML_20180420_174925 0.262355 StackedEnsemble_AllModels_0_AutoML_20180420_174925 0.262355 XRT_0_AutoML_20180420_174925 0.266606 DRF_0_AutoML_20180420_174925 0.278428 GLM_grid_0_AutoML_20180420_174925_model_0 0.442917

mean_per_class_error对于我的情况来说,这不是一个好的指标,因为班级不平衡(一个班级的人口非常少)。如何获取非领导者模型的详细信息并计算其他指标?谢谢。

蟒蛇版本:3.6.0

h2o 版本:3.18.0.5

0 投票
1 回答
298 浏览

parameters - How does parameter sharing work in Efficient Neural Architecture Search (ENAS)

ENAS implementation here

I'm trying to understand how the parameter sharing works in ENAS. The first two questions are there partially to answer the third main question.

  1. Are all nodes only used ONCE during macro search?
  2. For macro search, will all the nodes definitely link to its previous node?
  3. How are the parameters shared? Does each operations have their own weights, which are always loaded when called? If this is the case, then which weight to update and memorize during training, assuming multiple instances of the same operation is used. Or are there weights for each unique connection, e.g. Node1 to Node3 (W13) has one weight set, Node2 to Node3 (W23) has another weight set. If so, then how does it handle cases when there are skip connections (e.g. Node1 and Node2 are concatenated, which are then passed to Node 3. Will it have W12-3?)?
0 投票
1 回答
74 浏览

h2o - h2o.automl 中的 sort_metric 参数没有被使用

我正在尝试以下列方式为多类问题运行 h2o automl 模型

但我最终得到一个错误

h2o.automl 中的错误(y = 结果,training_frame = train_to_model,max_runtime_secs = 30,:未使用的参数(sort_metric = “logloss”)

根据http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-science/algo-params/sort_metric.html中的文档,我应该能够在多类分类问题中使用 logloss,但是我不能。

我的 h2o 版本是 3.18.0.11 而 R 版本是 3.4.1

你能告诉我为什么会发生这种情况吗?谢谢!

0 投票
0 回答
802 浏览

h2o - 如何在 H2O AutoML Python 中创建单个 AUC、混淆矩阵和 ROC 曲线

我正在使用 H2o 的 Auto ML 包,想知道是否可以为所有方法组合获得单个 AUC、混淆矩阵和 ROC 曲线。例如,我有 GLM、Stacked Ensemble、深度学习等单个模型的 AUC 值。你能得到所有方法组合的这三个值吗?目标是能够将 Auto ML 包与其他类似包进行比较。

0 投票
1 回答
672 浏览

r - R - H20 - 错误:意外的 HTTP 状态代码:500 服务器错误

我正在尝试h2o.automl从 H2O 包中使用。但是,我不断收到错误ERROR: Unexpected HTTP Status code: 500 Server Error

每当我设置时都会发生此错误

这是输出:

0 投票
0 回答
76 浏览

machine-learning - 在类似 OAR2 的集群中运行多个 Keras 模型

我想构建一个像 automl 这样的算法,但是,不知道如何在像 OAR2 这样的集群中同时训练多个 keras 模型。

假设我有两个不同的 keras 模型,如下所示:

如何在一个集群中同时训练这两个模型?

0 投票
3 回答
460 浏览

google-cloud-platform - Google AutoML 导入文本项目非常慢

我正在将文本项导入 Google 的 AutoML。每行包含大约 5000 个字符,我添加了 70K 这些行。这是一个多标签数据集。没有进度条或指示此过程需要多长时间。它已经运行了几个小时。有没有办法计算剩余时间或总估计时间。我想添加额外的数据集,但我担心在培训开始之前这将是一个非常漫长的过程。任何形式的公式都可以创建甚至是半疯狂的猜测都会很棒。-谢谢!

0 投票
1 回答
432 浏览

google-cloud-platform - 为 Google AutoML Vision 导入 CSV 文件时出现模糊错误

将图像列表添加到数据集时,我收到以下错误:

“填充不正确。无法提交事务。请重试。”

图像列表包含 410k 项,需要 15 分钟以上才能导入,因此重试似乎不是正确的做法。

“不正确的填充”是什么意思,我该怎么办?