6

我正在finetuning使用. 使用 a , , , , , ,在迭代中减少和减少非常好。CaffeTesla K40batch size=47solver_type=SGDbase_lr=0.001lr_policy="step"momentum=0.9gamma=0.1training losstest accuracy2%-50%100

当使用RMSPROP,ADAM和等其他优化器时ADADELTA,即使在迭代后training loss也几乎保持不变并且没有改进。test accuracy1000

对于,我已经更改了此处RMSPROP提到的相应参数。

对于,我已经更改了此处ADAM提到的相应参数

对于,我已经更改了此处ADADELTA提到的相应参数

有人可以告诉我我做错了什么吗?

4

1 回答 1

2

我看到了与 pir 类似的结果:当给定 SGD 使用的相同 base_lr 时,Adam 会发散。当我将 base_lr 降低到其原始值的 1/100 时,Adam 突然收敛,并给出了很好的结果。

于 2016-04-06T02:31:59.547 回答