从辍学论文:
“这个想法是在测试时使用单个神经网络而不会丢失。这个网络的权重是训练权重的缩小版本。如果在训练期间以概率 p 保留一个单元,则该单元的传出权重会相乘如图 2 所示,在测试时乘以 p。这确保对于任何隐藏单元,预期输出(在用于在训练时丢弃单元的分布下)与测试时的实际输出相同。”
为什么我们要保留预期的输出?如果我们使用 ReLU 激活,权重或激活的线性缩放会导致网络输出的线性缩放,并且对分类精度没有任何影响。
我错过了什么?
从辍学论文:
“这个想法是在测试时使用单个神经网络而不会丢失。这个网络的权重是训练权重的缩小版本。如果在训练期间以概率 p 保留一个单元,则该单元的传出权重会相乘如图 2 所示,在测试时乘以 p。这确保对于任何隐藏单元,预期输出(在用于在训练时丢弃单元的分布下)与测试时的实际输出相同。”
为什么我们要保留预期的输出?如果我们使用 ReLU 激活,权重或激活的线性缩放会导致网络输出的线性缩放,并且对分类精度没有任何影响。
我错过了什么?