我正在尝试实现资格跟踪(前瞻性),其伪代码可以在下图中找到
我不确定这是什么For all s, a
意思(下面的第 5 行)。他们从哪里得到这些收藏s, a
?
如果它是前瞻性的,是否从当前状态循环向前观察s'
?
你调整每一个e(s, a)
?
我正在尝试实现资格跟踪(前瞻性),其伪代码可以在下图中找到
我不确定这是什么For all s, a
意思(下面的第 5 行)。他们从哪里得到这些收藏s, a
?
如果它是前瞻性的,是否从当前状态循环向前观察s'
?
你调整每一个e(s, a)
?
不幸的是,他们在这里在两个不同的范围内重用了变量 s 和 a,但是是的,您调整了所有 e(s,a) 值,例如,
for every state s in your state space
for every action a in your action space
update Q(s,a)
update e(s,a)
注意这里发生了什么。e(s,a) 以指数递减量递增。但就在你进入那个循环之前,你增加了对应于刚刚访问的状态/动作对的单个e(s,a)。所以这对以某种方式“重置”——它没有得到指数级更小的更新,在下一次迭代中,它的更新将继续大于你最近没有访问过的所有对。每次访问状态/动作对时,都会增加它对 Q 更新的权重进行几次迭代。