1

我正在尝试实现资格跟踪(前瞻性),其伪代码可以在下图中找到

在此处输入图像描述

我不确定这是什么For all s, a意思(下面的第 5 行)。他们从哪里得到这些收藏s, a

如果它是前瞻性的,是否从当前状态循环向前观察s'

你调整每一个e(s, a)

4

1 回答 1

1

不幸的是,他们在这里在两个不同的范围内重用了变量 s 和 a,但是是的,您调整了所有 e(s,a) 值,例如,

for every state s in your state space
    for every action a in your action space
        update Q(s,a)
        update e(s,a)

注意这里发生了什么。e(s,a) 以指数递减量递增。但就在你进入那个循环之前,你增加了对应于刚刚访问的状态/动作对的单个e(s,a)。所以这对以某种方式“重置”——它没有得到指数级更小的更新,在下一次迭代中,它的更新将继续大于你最近没有访问过的所有对。每次访问状态/动作对时,都会增加它对 Q 更新的权重进行几次迭代。

于 2014-06-20T11:07:28.160 回答