我到处读到,除了提高准确性方面的表现外,“批量标准化使训练更快”。
我可能误解了一些东西(因为 BN 已不止一次被证明是有效的),但对我来说这似乎是不合逻辑的。
实际上,将 BN 添加到网络中会增加要学习的参数数量:BN 带来了要学习的“Scales”和“offset”参数。请参阅:https ://www.tensorflow.org/api_docs/python/tf/nn/batch_normalization
网络如何在“有更多工作要做”的同时更快地训练?
(我希望我的问题是合法的,或者至少不是太愚蠢)。
谢谢 :)