目前我正在阅读以下论文:“SqueezeNet:AlexNet-level accuracy with 50 x less parameters and <0.5 MB model size”。
在这4.2.3(激活函数层)中,有如下语句:
激活函数的影响几乎完全受限于训练阶段,它对推理期间的计算需求几乎没有影响。
我理解激活函数的影响如下。在卷积运算处理后,对特征图的每个单元应用激活函数(ReLU 等)。我认为此时的处理在训练模式和推理模式下都是相同的处理。为什么我们可以说它对训练有很大的影响,而对推理的影响不大呢?
有人可以解释一下吗。