2

我正在使用 Python API 在三个隐藏层前馈网络中按如下方式应用 dropout。我的结果不是很好,我想知道我是否误用了 dropout 层——将它应用到密集层的输入还是在内部应用到第一个线性层的输出更好?

def dense_layer(input, output_dim, nonlinearity):
    r = linear_layer(input, output_dim)
    r = dropout(r, 0.25)
    r = nonlinearity(r)
    return r;
4

1 回答 1

1

如果 0 dropout 效果更好,为什么你认为你需要一个 dropout?您的网络是否过拟合?你有其他正则化吗?最好有更多关于网络架构和数据的详细信息。

于 2017-01-30T21:48:21.340 回答