0

在使用反向传播训练多层神经网络时,所有层的权重在每次迭代中都会更新。

我在想如果我们随机选择任何层并仅在反向传播的每次迭代中更新该层的权重。

它将如何影响训练时间?模型性能(模型的泛化能力)是否会受到这种训练的影响?

我的直觉是泛化能力相同,训练时间会减少。如果我错了,请纠正。

4

1 回答 1

1

你的直觉是错误的。您提出的是块协调下降,虽然如果梯度不相关,这样做是有意义的,但在这种情况下这样做是没有意义的。

NN 中的问题在于,由于链式法则,您可以免费获得前一层的梯度,而您可以计算任何单层的梯度。因此,您只是无缘无故地丢弃此信息。

于 2018-12-11T16:02:16.410 回答