3

学习率是我的网络效果的关键。当我定义 lr = 0.05 时,train/validation-accuracy 会剧烈波动,但是 lr = 0.025 在 Epoch[30] 之前我无法获得任何效果。所以我记得 caffe 中的自适应学习率,一开始我选择了一个基数 lr = 0.1,随着训练的进行,lr 衰减到 0.05,然后是 0.025 和更小。MxNet有这个策略吗,怎么用?

4

1 回答 1

1

你有几个选项可以做到这一点:

一种是在每个批次/时期结束时使用回调函数:

sgd_opt = opt.SGD(learning_rate=0.005, momentum=0.9, wd=0.0001, rescale_grad=(1.0/batch_size))
model = mx.model.FeedForward(ctx=gpus, symbol=softmax, num_epoch=num_epoch,
              optimizer=sgd_opt, initializer=mx.init.Uniform(0.07))
def lr_callback(param):
    if param.nbatch % 10 == 0:
      sgd_opt.lr /= 10 # decrease learning rate by a factor of 10 every 10 batches
    print 'nbatch:%d, learning rate:%f' % (param.nbatch, sgd_opt.lr)

model.fit(X=train_dataiter, eval_data=test_dataiter, batch_end_callback=lr_callback)

另一种是使用AdaGrad 或 ADAM 等优化器之一

model = mx.model.FeedForward(
        ctx                = [mx.gpu(0)],
        num_epoch     = 60,
        symbol            = network,
        optimizer        =  'adam',
        initializer        = mx.init.Xavier(factor_type="in", magnitude=2.34))

model.fit(X= data_train)   
于 2017-02-26T00:13:50.587 回答