我想在 Caffe 的 MNIST 数据集上训练CaffeNet。然而,我注意到在100
迭代之后损失只是略微下降(从2.66364
到2.29882
)。
然而,当我在 MNIST 上使用LeNet时,在迭代之后,损失从2.41197
到。0.22359
100
发生这种情况是因为 CaffeNet 有更多的层,因此需要更多的训练时间来收敛吗?还是因为其他原因?我确保网络的solver.prototxt 是相同的。
虽然我知道 100 次迭代非常短(因为 CaffeNet 通常训练约 300-400k 次迭代),但我觉得奇怪的是 LeNet 能够这么快就得到这么小的损失。