在传统的残差块中,第 N 层对第 N+2 层(非线性之前)的输出的“加法”是逐元素加法还是串联?
文献表明是这样的:
X1 = X
X2 = relu(conv(X1))
X3 = conv(X2)
X4 = relu(conv(X3 + X1))
在传统的残差块中,第 N 层对第 N+2 层(非线性之前)的输出的“加法”是逐元素加法还是串联?
文献表明是这样的:
X1 = X
X2 = relu(conv(X1))
X3 = conv(X2)
X4 = relu(conv(X3 + X1))