keras - 为什么模型经常受益于在训练期间降低学习率

Question

在 ReduceLROnPlateau 类的 Keras 官方文档（https://keras.io/api/callbacks/reduce_lr_on_plateau/）中，他们提到

“模型通常受益于降低学习率”

为什么呢？至少对我来说这是违反直觉的，因为据我所知 - 更高的学习率允许从我目前的位置采取进一步的措施。

谢谢！

score 1 · Accepted Answer

训练 NN 时不应考虑过高或过低的学习率。较大的学习率可能会错过全局最小值，并且在极端情况下会导致模型完全偏离最优解。另一方面，小的学习率可能会停留在局部最小值。

ReduceLROnPlateau 的目的是跟踪模型的性能并在 x 轮数没有改进时降低学习率。直觉是，该模型以当前的学习率接近了一个次优解决方案，并在全局最小值附近振荡。降低学习率将使模型能够采取更小的学习步骤来获得成本函数的最优解。

1 回答 1