在神经网络中,正则化(例如 L2、dropout)通常用于减少过拟合。例如,下图显示了典型的损失与时期,有和没有辍学。实线 = 训练,虚线 = 验证,蓝色 = 基线(无辍学),橙色 = 有辍学。绘图由 Tensorflow 教程提供。 权重正则化的行为类似。
正则化延迟了验证损失开始增加的时期,但正则化显然不会降低验证损失的最小值(至少在我的模型和上面的图的教程中)。
如果我们在验证损失最小时使用提前停止来停止训练(以避免过度拟合),并且如果正则化只是延迟最小验证损失点(与降低最小验证损失值相比),那么似乎正则化不会导致网络具有更大的泛化性,但只会减慢训练速度。
如何使用正则化来减少最小验证损失(以改进模型泛化)而不是仅仅延迟它?如果正则化只是延迟最小验证损失而不是减少它,那么为什么要使用它呢?