我一直在我自己的图像数据集上运行来自 Google 的EfficientNet代码,并遇到了以下问题。对于架构的每个变体(b0 到 b7),训练和验证损失会减少,直到 +/- 100 个时期。之后两者都开始迅速增加,而验证准确性则相反。
我以前在任何地方都没有见过这种模式。我怀疑这是因为过度拟合,但训练损失不会继续减少吗?
看看其他 SO 问题,这个问题接近我的意思,但我不确定。如果这是一个梯度消失的问题,那么为什么 Google 的人没有使用 ImageNet 数据体验过呢?
设置
这已使用 EfficientNet教程运行。我的数据集包含 41k 个用于训练的图像和 5k 个用于验证的图像。