我已经阅读了 DQN 论文。
在阅读 DQN 论文时,我发现随机选择和学习样本使用非线性函数逼近器减少了 RL 中的分歧。
如果是这样,为什么当输入数据强相关时,使用非线性函数逼近器的 RL 学习会发散?
我已经阅读了 DQN 论文。
在阅读 DQN 论文时,我发现随机选择和学习样本使用非线性函数逼近器减少了 RL 中的分歧。
如果是这样,为什么当输入数据强相关时,使用非线性函数逼近器的 RL 学习会发散?
我相信An Analysis Of Temporal-Difference Learning with Function Approximation的第X节(从第 687 页开始)为您的问题提供了答案。综上所述,存在非线性函数,其平均预测误差在应用 TD(0) Bellman 算子后实际上会增加;因此,政策最终会出现分歧。这通常是深度神经网络的情况,因为它们本质上是非线性的,并且从优化的角度来看往往表现不佳。
或者,对独立同分布( iid ) 数据进行训练可以计算梯度的无偏估计,这是随机梯度下降 (SGD) 等一阶优化算法收敛到损失函数的局部最小值所必需的。这就是为什么 DQN 从大的重放内存中采样随机小批量,然后使用RMSProp(SGD 的一种高级形式)来减少损失。