咖啡可以做到这一点。因为神经网络的某些层需要大的学习率,而卷积层需要小的 lr。如何控制chainer中不同层有不同的lr,以便优化器根据对应的lr进行更新?
问问题
192 次
1 回答
0
您可以在下面的链接中覆盖指定更新策略hyperparam
的每个参数,update_rule
optimizer
model.l1.W.update_rule.hyperparam.lr = 0.01
有关详细信息,我已经回答了相同的问题
如何在 Chainer 的不同层中实现单独的学习率或优化器?
顺便说一句,chainer 的 Function 没有任何parameter
要更新的内容,因此 function 没有update_rule
.
于 2017-09-01T09:34:23.197 回答