在 Sutton&Barto 的 RL 书籍(链接)中,Watkins 的 Q(λ) 学习算法如图 7.14 所示: 第 10 行“对于所有 s,a:”,这里的“s,a”是所有 (s,a),而第 8 行和第 9 行中的 (s,a) 是当前的 (s,a),对吗?
在第 12 和 13 行,当 a'!=a* 时,执行第 13 行,所以所有的 e(s,a) 都将被设置为 0,那么当所有的资格迹都设置为 0 时,资格迹的意义是什么,因为情况 a'!=a* 会经常发生。即使 a'!=a* 的情况并不经常发生,但一旦发生,资格迹的意义就完全丧失,那么 Q 就不会再更新了,因为所有的 e(s,a)= 0,那么在每次更新中,如果使用替换跟踪,e(s,a) 仍将为 0。
那么,这是一个错误吗?