我想知道在那些具有冻结权重和偏差的层上使用批处理规范层是否很常见。在我的特殊情况下,我已经在 ImageNet 上预训练了 VGG19 和权重。我现在要做的是用预训练的权重训练这个网络,并在每个非线性之前添加批处理规范层。我的问题是,即使早期层的权重被冻结意味着不可训练,在每一层上使用批处理规范层是一种好习惯吗?我的第一个想法是这是一种很好的做法,因为即使那些较早的层不可训练,但批处理规范参数仍然是可训练的,因此这些冻结层的输入应该被归一化并且具有良好的分布。如果您对此有任何想法,请给我直观的解释。对不起,我的英语很差,感谢您的关注。