在 Prioritized Experience Replay 中计算目标网络的 TD 误差时,我们从附录 B 中的论文方程 2) 中得到:
$$\delta_t := R_t + \gamma max_a Q(S_t, a) - Q(S_{t-1}, A_{t-1})$$
如果 $S_t$ 是终端状态,则适用相同的公式对我来说似乎没有必要/不正确。这是因为在更新动作网络时计算误差时,我们会特别注意终端状态,并且不会为 go term 添加奖励(例如上面的 $\gamma max_a Q(S_t, a)$)。例如,请参见此处:https ://jaromiru.com/2016/10/03/lets-make-a-dqn-implementation/ 。
我的问题是:
- 在计算优先体验重放的 TD 误差时是否应该单独处理终端状态?
- 为什么/为什么不?