machine-learning - 对于优先体验重放的 DQN，终端状态的 TD 误差是多少？

翻译自：https://stackoverflow.com/questions/62961900 2020-07-17T21:20:02.297

223 次

在 Prioritized Experience Replay 中计算目标网络的 TD 误差时，我们从附录 B 中的论文方程 2) 中得到：

$$\delta_t := R_t + \gamma max_a Q(S_t, a) - Q(S_{t-1}, A_{t-1})$$

如果 $S_t$ 是终端状态，则适用相同的公式对我来说似乎没有必要/不正确。这是因为在更新动作网络时计算误差时，我们会特别注意终端状态，并且不会为 go term 添加奖励（例如上面的 $\gamma max_a Q(S_t, a)$）。例如，请参见此处：https ://jaromiru.com/2016/10/03/lets-make-a-dqn-implementation/ 。

我的问题是：

在计算优先体验重放的 TD 误差时是否应该单独处理终端状态？
为什么/为什么不？

machine-learning - 对于优先体验重放的 DQN，终端状态的 TD 误差是多少？

0 回答 0

Related

Reference