是否有任何具有“一般”值/Q 函数逼近的策略梯度算法的收敛证明?开创性论文 (Sutton1999 & Tsitsiklis1999) 使用兼容性假设证明了该定理(即 Q 函数近似与策略特征是线性的)。此外,后来的改进如 DPG(Silver14)也有类似的假设。
然而在实践中,不满足这种兼容性假设,策略网络和 Q 功能网络有自己的、独立的参数集。
因此,我想知道这些方法在多大程度上得到了理论保证的支持。
谢谢,
(Sutton1999):使用函数近似进行强化学习的策略梯度方法,Sutton 等人,1999 (Silver2014):确定性策略梯度算法,Silver 等人,2014 (Tsitsiklis1999):Actor-Critic 算法,Tsitsiklis 等人,1999