tensorflow - 为什么对动量常数的微小调整会对 SGD 结果产生如此大的影响？

问问题 2018-04-23T19:33:39.250

89 次

所以我只是在玩 Keras，并决定制作一个简单的神经网络来进行单变量线性回归。（epochs=25，lrate=0.001，衰变=100）。我注意到当我在 [0.7, 0.9] 中设置动量时，我的回归的 r^2 总是 >0.95，但是如果我将动量降至 0.7 以下，那么我突然开始得到极差的结果——一些模拟将返回 r^2为 0.5，有些为 -2，或 0.1，等等。高方差。

为什么会发生这种情况有一些直觉吗？我知道动量对 SGD 有好处，但是当您稍微调整动量常数时，我很惊讶地看到模型质量出现如此明显的下降......

tensorflow - 为什么对动量常数的微小调整会对 SGD 结果产生如此大的影响？

0 回答 0

Related

Reference