我正在使用 TF2 研究对象检测 API 和来自 TF2 模型动物园的预训练 EfficientDet D3 模型。在对我自己的数据集进行训练期间,我注意到总损失在上下跳跃 - 例如,几步之后从 0.5 到 2.0,然后又回到 0.75:
所以总而言之,这个训练似乎不是很稳定。我认为问题可能出在学习率上,但正如您在上面的图表中看到的,我在训练期间将 LR 设置为衰减,它下降到 1e-15 的非常小的值,所以我不知道如何这可能是问题所在(至少在培训的第二部分)。
此外,当我在 Tensorboard 中平滑曲线时,如上图第二张所示,可以看到总损失在下降,因此方向是正确的,即使它仍然处于相当高的值。我会对为什么我的训练集不能取得更好的结果感兴趣,但我想这是另一个问题。首先,我真的很感兴趣,为什么在整个训练过程中总损失会如此上下波动。有任何想法吗?
PS:pipeline.config
我的培训文件可以在这里找到。