在神经网络多层感知器中,我了解随机梯度下降 (SGD) 与梯度下降 (GD) 之间的主要区别在于训练时选择多少样本的方式。也就是说,SGD 迭代地选择一个样本执行前向传播,然后进行反向传播以调整权重,这与 GD 相反,反向传播仅在前向传播中计算完整个样本后才开始)。
我的问题是:
- 当梯度下降(甚至是迷你批次梯度下降)是所选方法时,我们如何表示单个正向通行证中的误差?假设我的网络只有一个输出神经元,错误是通过平均每个样本中的所有单个错误还是通过对所有错误求和来表示?
- 在MLPClassifier scikit learn 中,有谁知道这样的错误是如何累积的?求平均还是求和?
非常感谢你。