machine-learning - 残差网络可以跳过一个线性而不是两个吗？

Question

ResNets 中的标准是跳过 2 个线性。只跳过一个也可以吗？

score 1 · Accepted Answer

我建议您参考一下Kaiming He at al的原始论文。

在第 3.1-3.2 节中，他们将“身份”快捷方式定义为y = F(x, W) + x，其中W是可训练的参数，用于学习任何残差映射 F。残差映射包含非线性是很重要的，否则整个结构就是一个复杂的线性层。但线性的数量不受限制。

例如，ResNeXt 网络围绕仅卷积层的堆栈创建身份快捷方式（见下图）。所以残差块中没有任何密集层。

因此，一般的答案是：是的，它会起作用。然而，在特定的神经网络中，将两个密集层减少为一个可能不是一个好主意，因为无论如何，残差块必须足够灵活才能学习残差函数。因此，请记住验证您提出的任何设计。

1 回答 1