3

给定配置momentumPerMB=0.9,我观察到momentumAsTimeConstant第一个时期的价值。剩余的 epoch 具有预期的这个值。这似乎只发生在并行训练中(1bit 和 BM,尚未验证 MA)。

01/11/2017 00:08:08: Starting Epoch 1: learning rate per sample = 0.000500 effective momentum = 0.900000 momentum as time constant = 155504.2 samples 01/11/2017 00:18:04: Starting Epoch 2: learning rate per sample = 0.000500 effective momentum = 0.900000 momentum as time constant = 19438.0 samples

任何想法为什么会发生这种情况?

4

1 回答 1

1

我们建议指定momentumAsTimeConstant,因为此度量对于小批量大小是不变的。

于 2017-01-12T20:08:55.407 回答