我想训练一个基于策略梯度方法的神经网络。训练涉及找到用户定义损失的梯度(一次反向传播)。我知道渐变是在编译过程中自动完成的,如下所示
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
但是,此代码通过 NN 进行了多次向前和向后传递。我正在寻找的是单一的反向传播。我的问题是是否可以在 keras 中进行一次反向传播,或者我需要在 Pytorch 或 tensorflow 中进行。