machine-learning - 辍学的 Keras 实现是否正确？

Question

dropout的Keras实现参考了这篇论文。

以下摘录来自该论文：

这个想法是在测试时使用单个神经网络而不会丢失。该网络的权重是经过训练的权重的缩小版本。如果在训练期间以概率 p 保留一个单元，则该单元的传出权重在测试时乘以 p，如图 2 所示。

Keras 文档提到 dropout 仅在训练时使用，以及 Dropout 实现中的以下行

x = K.in_train_phase(K.dropout(x, level=self.p), x)

似乎表明确实在测试期间来自层的输出只是简单地传递。

此外，我找不到像论文建议的那样在训练完成后缩小权重的代码。我的理解是，这个缩放步骤对于使 dropout 起作用从根本上是必要的，因为它相当于在“子网络”的集合中获取中间层的预期输出。没有它，计算就不能再被认为是从这个“子网络”集合中采样的。

那么，我的问题是，如果有的话，Keras 中实现的 dropout 的这种缩放效果在哪里？

更新 1：好的，所以 Keras 使用了倒置 dropout，尽管它在 Keras 文档和代码中被称为 dropout。链接 http://cs231n.github.io/neural-networks-2/#reg似乎并不表示两者是等价的。答案也不在 https://stats.stackexchange.com/questions/205932/dropout-scaling-the-activation-versus-inverting-the-dropout。我可以看到他们做类似的事情，但我还没有看到有人说他们完全一样。我认为他们不是。

所以一个新问题：dropout和inverted dropout是等价的吗？需要明确的是，我正在寻找数学上的理由来说明它们是或不是。

score 13 · Accepted Answer

是的。它实施得当。从 Dropout 被发明的那一刻起，人们也从实现的角度对其进行了改进。Keras 正在使用其中一种技术。这称为倒置辍学，您可以在此处阅读。

更新：

老实说——在严格的数学意义上，这两种方法是不等价的。在反转的情况下，您将每个隐藏的激活乘以 dropout 参数的倒数。但是由于该导数是线性的，它相当于将所有梯度乘以相同的因子。为了克服这种差异，您必须设置不同的学习权重。从这个角度来看，这些方法有所不同。但从实际的角度来看 - 这种方法是等效的，因为：

如果您使用自动设置学习率的方法（如 RMSProp 或 Adagrad） - 它几乎不会改变算法。
如果您使用自动设置学习率的方法 - 您必须考虑到 dropout 的随机性以及由于在训练阶段某些神经元将被关闭的事实（在测试/评估阶段不会发生这种情况） - 你必须重新调整你的学习率以克服这种差异。概率论为我们提供了最好的重新调用因子——它是 dropout 参数的倒数，它使得损失函数梯度长度的期望值在训练和测试/评估阶段都相同。

当然 - 以上两点都是关于倒退技术。

score 3 · Accepted Answer

摘自原始 Dropout 论文（第 10 节）：

在本文中，我们将 dropout 描述为一种方法，其中我们在训练时保留概率为 p 的单元，并在测试时通过将它们乘以因子 p 来缩小权重。实现相同效果的另一种方法是通过在训练时乘以 1/p 而在测试时不修改权重来扩大保留的激活。这些方法等价于适当缩放每一层的学习率和权重初始化。

score 0 · Accepted Answer

但请注意，虽然 keras 的 dropout 层是使用倒置 dropout 实现的。与keep_rate相反的速率参数。

keras.layers.Dropout(rate, noise_shape=None, seed=None)

Dropout 包括在训练期间的每次更新时将输入单元的分数率随机设置为 0，这有助于防止过度拟合。

也就是说，rate设置辍学率，而不是您期望的倒退率保持率

Keras 辍学

machine-learning - 辍学的 Keras 实现是否正确？

3 回答 3

Related

Reference