0

两者有什么区别?例如,两者用于达到函数的最小点(较低的损失)。

我理解(我认为)学习率乘以梯度(斜率)以使梯度下降,但是这样吗?我错过了什么吗?

lr和梯度有什么区别?

谢谢

4

1 回答 1

1

深度学习神经网络使用随机梯度下降算法进行训练。

随机梯度下降是一种优化算法,它使用训练数据集中的示例估计模型当前状态的误差梯度,然后使用误差反向传播算法(简称反向传播)更新模型的权重。

在训练期间更新权重的量称为步长或“<strong>学习率”。</p>

具体来说,学习率是用于训练神经网络的可配置超参数,具有较小的正值,通常在 0.0 到 1.0 之间。

学习率控制模型适应问题的速度。鉴于每次更新对权重所做的更改较小,较小的学习率需要更多的训练 epoch,而较大的学习率会导致快速变化并且需要更少的训练 epoch。

学习率太大会导致模型过快收敛到次优解,而学习率太小会导致过程卡住。

训练深度学习神经网络的挑战涉及仔细选择学习率。它可能是模型最重要的超参数。

学习率可能是最重要的超参数。如果您有时间只调整一个超参数,请调整学习率。

— 第 429 页,深度学习,2016 年。

有关学习率是什么以及它是如何工作的更多信息,请参阅帖子:

训练深度学习神经网络时如何配置学习率超参数

你也可以参考这里:了解学习率对神经网络性能的影响

于 2019-10-07T10:32:05.330 回答