3

我正在尝试实施 Q-Learning。这里的一般算法如下

在此处输入图像描述

在声明中

在此处输入图像描述

我只是不明白我是否应该为当前状态/动作可以引导我们到达的所有下一个状态递归地实现原始伪代码的上述语句,并且每次都将其最大化

或者只是从 Action-State Q-Value 表中选择具有当前操作的下一个状态的最大值?

提前致谢。

4

1 回答 1

2

所有公式都说,在 step 上,t+1您通过使用 step 中的 state-action 值t和当前状态的所有操作的最大值来更新 state-action 值。

于 2014-12-04T11:58:50.603 回答