我正在实现一个修改后的 ResNet 架构。在 ResNet 的 Basic Block 中,我在快捷连接中使用了 Conv 层。所以我的主要路径由两个 Conv 层组成,每个层后面是 Batch Norm 层,然后是 ReLU 层,而在快捷连接中,只有 Conv 层没有 Batch Norm 层。然后最后将此快捷连接添加到主路径。下图总结了上面的解释。
虽然众所周知 Batch Norm 层应该添加到 Batch Norm 层,但这里将原始 conv 输出添加到 batch norm 层。
但令人惊讶的是,我的模型提供了更好的性能,该架构提供了更好的性能,当我在快捷连接中添加批量规范层时,我的模型的性能急剧下降,甚至在详尽的超参数调整之后甚至没有收敛到以前的设置。
所以我的问题是我是否应该遵循在快捷连接中添加的批处理规范层,即使性能很差,因为它尊重文献,或者我应该在这种情况下使用在快捷连接中没有批处理规范层的情况下表现更好的那个。还有,如果我要发表这个作品,审稿人肯定会提出这个问题,我应该提前添加什么样的解释才能让事情更清楚