-1

在神经网络多层感知器中,我了解随机梯度下降 (SGD) 与梯度下降 (GD) 之间的主要区别在于训练时选择多少样本的方式。也就是说,SGD 迭代地选择一个样本执行前向传播,然后进行反向传播以调整权重,这与 GD 相反,反向传播仅在前向传播中计算完整个样本后才开始)。

我的问题是:

  1. 当梯度下降(甚至是迷你批次梯度下降)是所选方法时,我们如何表示单个正向通行证中的误差?假设我的网络只有一个输出神经元,错误是通过平均每个样本中的所有单个错误还是通过对所有错误求和来表示?
  2. MLPClassifier scikit learn 中,有谁知道这样的错误是如何累积的?求平均还是求和?

非常感谢你。

4

1 回答 1

-1

我想我可以回答你的第一个问题。是的,单个前向传递的误差被计算为瞬时误差,例如,如果将一个样本馈送到网络,则网络输出与所需响应(标签)之间的差异范数或瞬时误差的平均值输入小批量样品获得的误差。

我希望这有帮助。

于 2017-12-09T15:28:41.887 回答