4

在 ResNet 架构中,为什么在残差块中的残差元素相加之后应用 ReLU 激活,而不是在它之前?

4

1 回答 1

7

因为它是这样提出的。在以下工作中对剩余连接进行了调查:https : //arxiv.org/pdf/1603.05027.pdf 他们发现,Skip -> BN -> RELU -> Conv -> BN -> RELU -> Conv ->添加效果最好。

但是,性能差异可以忽略不计,因此最初的 ResNet 公式占了上风。不过,如果您想知道什么有效,什么无效,您可以阅读这篇论文。

于 2018-03-01T14:50:50.243 回答