0

我已经观察到,

SpatialDropout2D(0.2)

在 5 个 Convolutional2D 层中的每一层之后的层中,前几个 epoch 的训练和验证误差比没有这些 Dropout 层的相同网络要低得多(其他条件相同)。这似乎违反直觉,因为如果中间结果被随机丢弃,我预计优化例程会更难找到最小值。

那么我的观察可信吗?如果是这样,为什么?

4

1 回答 1

1

一般来说,dropout是用来对抗过拟合的技术之一。预计会减少测试错误,但不会减少训练错误。相反,当模型停止过度拟合时,训练误差可能会上升。

我建议阅读深度学习教科书第 7.12 节中有关 dropout 的更多信息。

于 2017-01-30T15:43:48.260 回答