1

在“Stone、Peter、Richard S. Sutton 和 Gregory Kuhlmann。“机器杯足球比赛的强化学习。” Adaptive Behavior 13.3 (2005): 165-188.”中,RLstep 伪代码似乎与 Sarsa(λ) 有很大不同,作者说 RLStep 实现了。

这是RLstep 伪代码,这是Sarsa(lambda) 伪代码

混乱的领域是:

  • Sarsa(λ) 伪代码中的第 10 行在将 1 加 1更新每个状态-动作对的 Q 值e(s,a)。但是在 RLstep 伪代码中,资格跟踪更新(第 19 行)直到值更新(第 17 行)之后才会发生。

  • RLstep 中的第 18 行和第 19 行似乎与 Sarsa(λ) 伪代码完全不同。

  • 第 20-25 行对资格跟踪做了什么?

4

0 回答 0