我在我的研究中实现了一个非常复杂的函数,它在这一层使用了信念传播。我已经导出了该层的梯度wrt W(参数),但是由于它的复杂性,我没有导出梯度wrt input_data(数据来自前一层)。
我对反向传播的细节非常困惑。我搜索了很多关于 BP 算法的内容,一些注释说只对 W(参数)进行微分并使用残差来获得梯度就可以了吗?您的示例似乎我们还需要计算梯度 wrt 输入数据(前层输出)。我很困惑?非常典型的例子是,如何在卷积层中导出输入图像的梯度?
我的网络有两层,我需要在最后一层手动输入 X 来推导梯度吗?(向后需要返回 gx 以让 BP 工作以梯度流到前一层)?