1

在神经网络中,正则化(例如 L2、dropout)通常用于减少过拟合。例如,下图显示了典型的损失与时期,有和没有辍学。实线 = 训练,虚线 = 验证,蓝色 = 基线(无辍学),橙色 = 有辍学。绘图由 Tensorflow 教程提供。 有/无辍学的损失 权重正则化的行为类似。

正则化延迟了验证损失开始增加的时期,但正则化显然不会降低验证损失的最小值(至少在我的模型和上面的图的教程中)。

如果我们在验证损失最小时使用提前停止来停止训练(以避免过度拟合),并且如果正则化只是延迟最小验证损失点(与降低最小验证损失值相比),那么似乎正则化不会导致网络具有更大的泛化性,但只会减慢训练速度。

如何使用正则化来减少最小验证损失(以改进模型泛化)而不是仅仅延迟它?如果正则化只是延迟最小验证损失而不是减少它,那么为什么要使用它呢?

4

1 回答 1

1

从单个教程情节过度概括可能不是一个好主意。这是原始辍学论文的相关情节:

在此处输入图像描述

显然,如果 dropout 的效果是延迟收敛,它就没有多大用处。但当然它并不总是有效(正如你的情节清楚地表明的那样),因此默认情况下不应该使用它(这可以说是这里的教训)......

于 2019-09-12T15:21:40.450 回答