2

在具有累积资格跟踪的 sarsa λ ( http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html ) 中,给出的算法与公式不匹配。

公式说 E ← ɣλE+ 1

其中 [algo] 使用第一个 E ← E+1 进行更新,然后 E ← ɣλE 使更新有效
E ← ɣλ.(E+1)

哪个是对的?我还看到了具有完全相同公式和算法的研究论文。

他们错过了在 E+1 周围放置一对括号是否是出版物中的差异?
如果是这样,大多数研究论文如何复制相同的错误。

或者
如果我误解了什么,请指出。

4

1 回答 1

0

我认为他们没有错过任何括号,它是 E ← ɣλE+1。由于 E 每次都应该减少 ɣλ,除非 s 是当前的。所以 1 指的是当前的 s。这里有一个图http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node75.html可以让你更好地理解这个想法,它介于 Equ(7.5) 和 (7.6) 之间。

于 2016-10-20T23:36:40.333 回答