0

在推理阶段通过批量归一化精确完成的是使用总体均值和估计的总体方差对每一层进行归一化 在此处输入图像描述

但似乎每个 tensorflow 实现(包括这个和官方的 tensorflow实现)都使用(指数)移动平均和方差

请原谅我,但我不明白为什么。是因为使用移动平均线对性能更好吗?还是为了纯粹的计算速度?

参考:原论文

4

1 回答 1

0

样本均值的精确更新规则只是一个指数平均,步长等于反样本大小。因此,如果您知道样本量,您可以将衰减因子设置为1/n,其中n是样本量。然而,如果选择非常接近 1,衰减因子通常无关紧要,因为具有这种衰减率的指数平均仍然提供非常接近均值和方差的近似值,尤其是在大型数据集上。

于 2017-04-30T19:49:50.920 回答