我正在使用 Python API 在三个隐藏层前馈网络中按如下方式应用 dropout。我的结果不是很好,我想知道我是否误用了 dropout 层——将它应用到密集层的输入还是在内部应用到第一个线性层的输出更好?
def dense_layer(input, output_dim, nonlinearity):
r = linear_layer(input, output_dim)
r = dropout(r, 0.25)
r = nonlinearity(r)
return r;