r - 如何迭代训练 h2o automl 模型

Question

我试图训练使用h2o.automl(). 但训练因超时而退出。我知道max_runtime_secs可以设置为更高的数字。但是，如果我们可以训练 1 小时，然后将其保存在某个地方，那就太好了。第二天从第一天离开的地方再次训练它。

怎么做？

我尝试过设置project_name- 但退出时没有保存任何内容。所以如果我们关闭电脑并重新启动，它是没有用的。

我为此使用了以下代码：

library( h2o )

h2o.init( nthreads = -1, max_mem_size = '10240m' )

train = h2o.importFile( 'train.csv' )

automl_model = h2o.automl( y = 'outcome', training_frame = train, nfolds = 3, max_runtime_secs = 1800,

                           project_name = 'automl_aus_tennis' )

链接到 train.csv：http ://www.mediafire.com/file/qj7yiju15ncgnax/train.csv

score 4 · Accepted Answer

您可以h2o.automl()使用相同project_name和不同的种子重复运行以构建其他模型并将它们添加到相同的leaderboard. 我一直这样做。

有一个拉取请求，应该很快就会出现，它允许您指定不运行的算法。这允许您调整每次AutoML运行时执行哪些超参数搜索。

您需要保持h2o-3实例运行以实现您的目标，因为您当前无法将AutoML运行状态持久保存到磁盘并将其加载到新h2o-3实例中，或者将从磁盘加载的模型添加到leaderboard. 这些将是有用的功能请求。:-)

score 1 · Accepted Answer

如果您关闭 H2O 集群（或机器）并在以后重新启动 H2O 集群，则无法继续运行 H2O AutoML 作业。如果您让 H2O 集群继续运行，您可以通过h2o.automl()使用相同的值再次运行来将更多模型添加到排行榜project_name。

如果您需要在两次运行之间关闭 H2O 集群，那么您可以做的最好的事情是在运行第二次、第三次、第四次等时seed在h2o.automl()函数中设置一个不同的值，因为您在 AutoML 运行中的随机网格搜索将与众不同。这样，您可能会获得新模型，而不是您在之前的 AutoML 运行中已经训练过的模型。

r - 如何迭代训练 h2o automl 模型

2 回答 2

Related

Reference