1

我正在写一篇文章,我专注于一个简单的问题——在存在标准正态或均匀噪声的情况下对大型数据集进行线性回归。我选择了来自 TensorFlow 的 Estimator API 作为建模框架。

我发现,实际上,当训练步骤的数量可以足够大时,超参数调整对于这样的机器学习问题并不重要。超参数是指训练数据流中的批量大小或时期数。

有没有正式证明的论文/文章?

4

1 回答 1

0

我认为没有专门针对这个问题的论文,因为它或多或少是一个基本事实。本书的介绍性章节讨论了机器学习的一般概率解释,特别是损失函数优化。

简而言之,想法是这样的:小批量优化 wrt(x1,..., xn)等价于连续优化步骤 wrt x1, ...,xn输入,因为梯度是线性算子。这意味着小批量更新等于其各个更新的总和。这里的重要说明:我假设 NN 不应用批处理规范或任何其他向推理模型添加显式变化的层(在这种情况下,数学有点毛茸茸)。

所以batch size可以看作是一种纯粹的计算思想,通过向量化和并行计算来加速优化。假设一个人可以承受任意长时间的训练并且数据被正确打乱,批量大小可以设置为任何值。但并非所有超参数都自动成立,例如非常高的学习率很容易迫使优化发散,所以不要误以为超参数调整通常不重要。

于 2017-11-05T13:12:47.027 回答