如果我理解正确,当对小批量使用深度学习时,我们在每个小批量中都有一个前向和后向传递(使用相应的优化器)。但是在时代结束时(在使用所有小批量之后)会发生不同的事情吗?
我要问的原因是,在我实现用于图像分割的 u-net 时,我看到每个 mini batch 的损失都会略微减少(大约为 0.01)。然后,当新的 epoch 开始时,第一个 mini batch 相对于前一个 epoch 的最后一个 mini batch 的 loss 变化很大(大约 0.5)。此外,在第一个 epoch 之后,测试数据的损失与下一个 epoch 中第一个 mini batch 的损失顺序相同。
我会将此解释为在 epoch 结束时权重的更新速度比不同的 mini batch 更快,但我发现没有理论支持这一点。我将不胜感激。
至于优化器,随机梯度下降和 Adam 都会发生这种情况。如果有帮助,我正在使用 Keras。