3

最近我研究了反向传播网络并做了一些手动练习。在那之后,我提出了一个问题(也许没有意义):以下两种不同的替换方法有什么重要的吗: 1. 增量训练:一旦知道所有 delta Wij 并且在呈现之前,权重会立即更新下一个训练向量。2. 批量训练:为每个示例训练向量计算和存储 delta Wij。但是,delta Wij 不会立即用于更新权重。权重更新在训练时期结束时完成。

我已经用谷歌搜索了一段时间,但没有找到任何结果。

4

2 回答 2

7

所以你指的是执行梯度下降学习的两种模式。在批处理模式下,权重矩阵的变化在整个训练数据集(一个“时期”)呈现中累积;在线训练在呈现包含训练集的每个向量后更新权重。

我相信大家的共识是在线培训更优越,因为它收敛得更快(大多数研究报告准确性没有明显差异)。(例如,参见 Randall Wilson 和 Tony Martinez,梯度下降学习批量训练的普遍效率低下,在神经网络中(2003 年)。

在线训练收敛更快的原因是它可以在每个 epoch 上跟随误差曲面中的曲线。这样做的实际意义在于,您可以使用更大的学习率(因此通过训练数据以更少的周期收敛)。

换句话说,批量训练的累积权重变化随着训练集的大小而增加。结果是批量训练在每次迭代中使用大步,因此错过了误差空间拓扑中的局部最小值——您的求解器会振荡而不是收敛。

批量训练通常是“默认”(最常用于 ML 教科书等),只要它在您可接受的时间限制内收敛,使用它就没有错。同样,性能(分辨率或分类精度)的差异很小或可以忽略不计。

于 2010-11-15T22:44:48.687 回答
2

是的,这两种方法是有区别的。计算得到的增量是输入向量和网络权重的函数。如果您更改权重,则从下一个输入向量计算的增量将不同于您未更改权重的情况。

因此,对于第一个输入向量,无论您选择哪种方法,都将计算相同的增量。现在,对于 Successive 方法,网络中的权重会发生变化,而在 Simultaneous 方法中,权重现在将保持不变。当呈现第二个输入向量时,两种方法现在都将产生不同的增量,因为两个网络之间的权重不同。

于 2010-11-15T22:15:57.660 回答