我正在 Keras 中构建 MLP 神经网络,批量归一化似乎适用于所需的模型,我听到了关于在使用批量规范时是否需要 L2 的不同观点,但它似乎包含在常见的网络架构中。但是,我的问题是您将应用哪种类型的 L2:内核或活动?对于网络的其他部分,您会将它应用到哪里?下面的代码在哪里应用 L2,它不正确吗?
#Hidden layers
if i==1:
#Input layer
model.add(Dense(units=layer_units, input_dim=123, activity_regularizer=L2(hp_alpha_l2), use_bias=False))
else:
model.add(Dense(units=layer_units, activity_regularizer=L2(hp_alpha_l2), use_bias=False))
model.add(BatchNormalization())
model.add(Activation(hp_activation))
model.add(Dropout(rate=drop_rate))