当我阅读一篇论文“批量标准化:通过减少内部协变量偏移来加速深度网络训练”时,我想到了一些问题。
在论文中,它说:
由于训练数据中的 m 个样本可以估计所有训练数据的均值和方差,因此我们使用 mini-batch 来训练批归一化参数。
我的问题是:
他们是选择 m 个示例然后同时拟合批规范参数,还是为每个输入维度选择不同的 m 个示例集?
例如,训练集由x(i) = (x1,x2,...,xn)
:n维固定批次M = {x(1),x(2),...,x(N)}
,执行拟合所有gamma1~gamman
和beta1~betan
。
对比
对于gamma_i
,beta_i
拣选不同批次M_i = {x(1)_i,...,x(m)_i}