0

我正在调整代码来训练一个神经网络,该网络进行在线训练以适用于小批量。权重 (de/dw) 的小批量梯度是否只是小批量中样本梯度的总和?或者,由于 sigmoid 输出函数,它是一些非线性函数吗?或者,它是总和但除以某个数字以使其更小吗?

澄清:最好把这个问题具体提出来,问一下full-batch梯度和在线梯度的关系。因此,请参见下一段:

我正在使用具有 sigmoid 激活函数的神经元对二维空间中的点进行分类。架构是 2 x 10 x 10 x 1。有 2 个输出类:一些点是 1,另一些是 0。误差是(目标 - 输出)平方的一半。我的问题是,整个批次梯度是否等于每个样本的梯度之和(在批次中保持权重不变)?

4

1 回答 1

3

这有点取决于您的确切成本函数,但是当您使用在线模式时,这意味着您的函数在训练样本的意义上是可加的,所以最可能的方法(不知道确切的细节)是计算平均值渐变。当然,如果你只是把它们加起来,这将是完全相同的结果,但需要更小的学习率。

于 2014-06-28T09:36:54.260 回答