我是卷积神经网络的新手,只知道特征图以及如何对图像进行卷积以提取特征。我很高兴知道在 CNN 中应用批量标准化的一些细节。
我阅读了这篇论文https://arxiv.org/pdf/1502.03167v3.pdf并且可以理解应用于数据的 BN 算法,但最后他们提到在应用于 CNN 时需要稍作修改:
对于卷积层,我们还希望归一化遵循卷积特性——以便同一特征图的不同元素在不同位置以相同的方式进行归一化。为了实现这一点,我们在一个小批量中联合标准化所有位置的所有激活。在阿尔格。在图 1 中,我们让 B 是一个特征图中所有值的集合,该集合跨越小批量的元素和空间位置——因此对于大小为 m 的小批量和大小为 p × q 的特征图,我们使用 effec - 大小为 m' = |B| 的小批量 = m·pq。我们为每个特征图学习一对参数 γ(k) 和 β(k),而不是每次激活。阿尔格。图 2 进行了类似的修改,因此在推理过程中,BN 变换将相同的线性变换应用于给定特征图中的每个激活。
当他们说“以便同一特征图的不同元素在不同位置以相同方式归一化”时,我完全感到困惑
我知道特征图的含义,不同的元素是每个特征图中的权重。但我不明白位置或空间位置是什么意思。
我根本无法理解下面的句子 “在算法 1 中,我们让 B 成为特征图中跨小批量元素和空间位置的所有值的集合”
如果有人冷淡地用更简单的术语详细说明并解释我,我会很高兴