-4

我想在 Caffe 的 MNIST 数据集上训练CaffeNet。然而,我注意到在100迭代之后损失只是略微下降(从2.663642.29882)。

然而,当我在 MNIST 上使用LeNet时,在迭代之后,损失从2.41197到。0.22359100

发生这种情况是因为 CaffeNet 有更多的层,因此需要更多的训练时间来收敛吗?还是因为其他原因?我确保网络的solver.prototxt 是相同的。

虽然我知道 100 次迭代非常短(因为 CaffeNet 通常训练约 300-400k 次迭代),但我觉得奇怪的是 LeNet 能够这么快就得到这么小的损失。

4

1 回答 1

0

我不熟悉这些网络的架构,但总的来说有几个可能的原因:

1)其中一个网络确实要复杂得多

2)其中一个网络以更大的学习率训练

3)或者也许它使用了有动力的训练,而其他网络没有使用它?

4) 也有可能他们在训练期间都使用动量,但其中一个具有更大的动量系数

真的,对此有很多可能的解释。

于 2015-12-15T16:07:09.777 回答