反向传播的维基百科页面有这样的说法:
用于计算梯度的反向传播算法已被多次重新发现,它是一种更通用的技术的特例,称为反向累积模式中的自动微分。
有人可以对此进行阐述,通俗地说吗?被区分的功能是什么?什么是“特例”?是使用的伴随值本身还是最终梯度?
更新:自从写这篇文章以来,我发现这在深度学习一书的第 6.5.9 节中有介绍。请参阅https://www.deeplearningbook.org/。我还发现这篇论文在以下主题上提供了丰富的信息:Haber 和 Ruthotto 的“深度神经网络的稳定架构”。