reinforcement-learning - 如何理解 Keepaway 中的 RLstep（与 Sarsa 比较）

翻译自：https://stackoverflow.com/questions/40166586 2016-10-21T00:32:25.767

52 次

在“Stone、Peter、Richard S. Sutton 和 Gregory Kuhlmann。“机器杯足球比赛的强化学习。” Adaptive Behavior 13.3 (2005): 165-188.”中，RLstep 伪代码似乎与 Sarsa(λ) 有很大不同，作者说 RLStep 实现了。

这是RLstep 伪代码，这是Sarsa(lambda) 伪代码。

混乱的领域是：

Sarsa(λ) 伪代码中的第 10 行在将 1 加 1后更新每个状态-动作对的 Q 值e(s,a)。但是在 RLstep 伪代码中，资格跟踪更新（第 19 行）直到值更新（第 17 行）之后才会发生。
RLstep 中的第 18 行和第 19 行似乎与 Sarsa(λ) 伪代码完全不同。
第 20-25 行对资格跟踪做了什么？

reinforcement-learning - 如何理解 Keepaway 中的 RLstep（与 Sarsa 比较）

0 回答 0

Related

Reference