0

据我了解 DNN 的 dropout 正则化是:

退出:

首先,我们从 DNN 中随机删除神经元,只保留输入和输出相同。然后我们基于一个mini-batch进行前向传播和后向传播;学习这个小批量的梯度,然后更新权重和偏差——这里我将这些更新的权重和偏差表示为 Updated_Set_1。

然后,我们将 DNN 恢复到默认状态并随机删除神经元。现在我们执行前向和后向传播并找到一组新的权重和偏差,称为 Updated_Set_2。这个过程一直持续到 Updated_Set_N ~ N 代表小批量的数量。

最后,我们根据总的 Updated_Set_N 计算所有权重和偏差的平均值;例如,从 Updated_Set_1 ~ Updated_Set_N。这些新的平均权重和偏差将用于预测新的输入。

我只是想确认我的理解是正确还是错误。如果错了,请分享你的想法并教我。先感谢您。

4

1 回答 1

0

好吧,实际上没有平均。在训练期间,对于每个前馈/后向前传,我们随机“静音”/停用一些神经元,以便在计算输出期间和反向传播期间不考虑它们的输出和相关权重。

这意味着我们正在迫使其他激活的神经元在没有失活神经元的帮助的情况下做出良好的预测。因此,这增加了它们对其他神经元(特征)的独立性,并以同样的方式增加了模型的泛化性。

除此之外,前向和反向传播阶段是相同的,没有丢失。

于 2018-12-26T12:59:42.870 回答