在具有累积资格跟踪的 sarsa λ ( http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html ) 中,给出的算法与公式不匹配。
公式说 E ← ɣλE+ 1
其中 [algo] 使用第一个 E ← E+1 进行更新,然后 E ← ɣλE 使更新有效
E ← ɣλ.(E+1)
哪个是对的?我还看到了具有完全相同公式和算法的研究论文。
他们错过了在 E+1 周围放置一对括号是否是出版物中的差异?
如果是这样,大多数研究论文如何复制相同的错误。
或者
如果我误解了什么,请指出。