所以我只是在玩 Keras,并决定制作一个简单的神经网络来进行单变量线性回归。(epochs=25,lrate=0.001,衰变=100)。我注意到当我在 [0.7, 0.9] 中设置动量时,我的回归的 r^2 总是 >0.95,但是如果我将动量降至 0.7 以下,那么我突然开始得到极差的结果——一些模拟将返回 r^2为 0.5,有些为 -2,或 0.1,等等。高方差。
为什么会发生这种情况有一些直觉吗?我知道动量对 SGD 有好处,但是当您稍微调整动量常数时,我很惊讶地看到模型质量出现如此明显的下降......