reinforcement-learning - Policy Gradient 与函数逼近的收敛保证

翻译自：https://stackoverflow.com/questions/65356449 2020-12-18T11:42:56.853

53 次

是否有任何具有“一般”值/Q 函数逼近的策略梯度算法的收敛证明？开创性论文 (Sutton1999 & Tsitsiklis1999) 使用兼容性假设证明了该定理（即 Q 函数近似与策略特征是线性的）。此外，后来的改进如 DPG（Silver14）也有类似的假设。

然而在实践中，不满足这种兼容性假设，策略网络和 Q 功能网络有自己的、独立的参数集。

因此，我想知道这些方法在多大程度上得到了理论保证的支持。

谢谢，

(Sutton1999)：使用函数近似进行强化学习的策略梯度方法，Sutton 等人，1999 (Silver2014)：确定性策略梯度算法，Silver 等人，2014 (Tsitsiklis1999)：Actor-Critic 算法，Tsitsiklis 等人，1999

0 回答 0