0

通常使用默认的 dropout rate0.5作为默认值,我也在我的全连接网络中使用它。该建议遵循原始 Dropout 论文(Hinton 等人)的建议。

我的网络由大小完全连接的层组成

[1000, 500, 100, 10, 100, 500, 1000, 20].

我不对最后一层应用 dropout。但我确实将它应用于大小 10 的瓶颈层。这似乎不合理dropout = 0.5。我想很多信息都会丢失。使用 dropout 时如何处理瓶颈层是否有经验法则?是增加瓶颈的大小还是降低辍学率更好?

4

1 回答 1

1

添加了 Dropout 层以防止神经网络中的过度拟合(正则化)。

首先,Drop out rate 在层的输出值中添加噪声,以打破导致过度拟合的偶然模式。

这里丢弃率0.5表示要丢弃50%的值,这是一个高噪声比和瓶颈层的确定No。

我建议您首先在没有 dropout 的情况下训练您的瓶颈层,然后将其结果与增加的 dropout 进行比较。

选择最能验证您的测试数据的模型。

于 2018-11-21T11:17:50.703 回答