reinforcement-learning - 如何理解 Sutton&Barto 的 RL 书中 Watkins 的 Q(λ) 学习算法？

Question

在 Sutton&Barto 的 RL 书籍（链接）中，Watkins 的 Q(λ) 学习算法如图 7.14 所示：第 10 行“对于所有 s,a:”，这里的“s,a”是所有 (s,a)，而第 8 行和第 9 行中的 (s,a) 是当前的 (s,a)，对吗？

在第 12 和 13 行，当 a'!=a* 时，执行第 13 行，所以所有的 e(s,a) 都将被设置为 0，那么当所有的资格迹都设置为 0 时，资格迹的意义是什么，因为情况 a'!=a* 会经常发生。即使 a'!=a* 的情况并不经常发生，但一旦发生，资格迹的意义就完全丧失，那么 Q 就不会再更新了，因为所有的 e(s,a)= 0，那么在每次更新中，如果使用替换跟踪，e(s,a) 仍将为 0。

那么，这是一个错误吗？

score 6 · Accepted Answer

资格跟踪的想法是只对符合条件的状态-动作对给予信任或指责。Sutton & Barto 的书很好地说明了这个想法：资格跟踪的后向视图

在 Watkin 的 Q(λ) 算法中，如果您以确定性的方式遵循您的策略 Q（始终选择最佳操作），您希望将功劳/归咎于您实际访问过的状态-操作对。

所以你的问题的答案在第 5 行：

Choose a' from s' using policy derived from Q (e.g. epsilon-greedy)

因为 a' 是选择 epsilon 贪心的，所以有一点机会（概率为 epsilon）您采取探索性随机步骤而不是贪婪步骤。在这种情况下，整个资格跟踪设置为零，因为将功劳归咎于之前访问过的状态-动作对是没有意义的。您在随机探索步骤之前访问的状态-动作对不应该因未来的奖励而受到赞扬/指责，因此您删除了整个资格跟踪。在之后的时间步骤中，您开始建立新的资格跟踪......

希望有帮助。

score 0 · Accepted Answer

一步一步写完这个流程后，我现在可以理解了。在 a'!=a* 之后，所有 e(s,a) 的迹线都设置为 0，但在下一步中 e(s',a') 已再次设置为 1（此处为第 9 行）。在这里查看我的理解细节

reinforcement-learning - 如何理解 Sutton&Barto 的 RL 书中 Watkins 的 Q(λ) 学习算法？

2 回答 2

Related

Reference