通常使用默认的 dropout rate0.5
作为默认值,我也在我的全连接网络中使用它。该建议遵循原始 Dropout 论文(Hinton 等人)的建议。
我的网络由大小完全连接的层组成
[1000, 500, 100, 10, 100, 500, 1000, 20]
.
我不对最后一层应用 dropout。但我确实将它应用于大小 10 的瓶颈层。这似乎不合理dropout = 0.5
。我想很多信息都会丢失。使用 dropout 时如何处理瓶颈层是否有经验法则?是增加瓶颈的大小还是降低辍学率更好?