5

在 Sutton&Barto 的 RL 书籍(链接)中,Watkins 的 Q(λ) 学习算法如图 7.14 所示: 在此处输入图像描述 第 10 行“对于所有 s,a:”,这里的“s,a”是所有 (s,a),而第 8 行和第 9 行中的 (s,a) 是当前的 (s,a),对吗?

在第 12 和 13 行,当 a'!=a* 时,执行第 13 行,所以所有的 e(s,a) 都将被设置为 0,那么当所有的资格迹都设置为 0 时,资格迹的意义是什么,因为情况 a'!=a* 会经常发生。即使 a'!=a* 的情况并不经常发生,但一旦发生,资格迹的意义就完全丧失,那么 Q 就不会再更新了,因为所有的 e(s,a)= 0,那么在每次更新中,如果使用替换跟踪,e(s,a) 仍将为 0。

那么,这是一个错误吗?

4

2 回答 2

6

资格跟踪的想法是只对符合条件的状态-动作对给予信任或指责。Sutton & Barto 的书很好地说明了这个想法: 资格跟踪的后向视图

在 Watkin 的 Q(λ) 算法中,如果您以确定性的方式遵循您的策略 Q(始终选择最佳操作),您希望将功劳/归咎于您实际访问过的状态-操作对。

所以你的问题的答案在第 5 行:

Choose a' from s' using policy derived from Q (e.g. epsilon-greedy)

因为 a' 是选择 epsilon 贪心的,所以有一点机会(概率为 epsilon)您采取探索性随机步骤而不是贪婪步骤。在这种情况下,整个资格跟踪设置为零,因为将功劳归咎于之前访问过的状态-动作对是没有意义的。您在随机探索步骤之前访问的状态-动作对不应该因未来的奖励而受到赞扬/指责,因此您删除了整个资格跟踪。在之后的时间步骤中,您开始建立新的资格跟踪......

希望有帮助。

于 2016-11-30T22:53:26.330 回答
0

一步一步写完这个流程后,我现在可以理解了。在 a'!=a* 之后,所有 e(s,a) 的迹线都设置为 0,但在下一步中 e(s',a') 已再次设置为 1(此处为第 9 行)。在这里查看我的理解细节

一步步

于 2016-11-30T15:36:16.480 回答