我正在尝试实施 Q-Learning。这里的一般算法如下
在声明中
我只是不明白我是否应该为当前状态/动作可以引导我们到达的所有下一个状态递归地实现原始伪代码的上述语句,并且每次都将其最大化
或者只是从 Action-State Q-Value 表中选择具有当前操作的下一个状态的最大值?
提前致谢。
我正在尝试实施 Q-Learning。这里的一般算法如下
在声明中
我只是不明白我是否应该为当前状态/动作可以引导我们到达的所有下一个状态递归地实现原始伪代码的上述语句,并且每次都将其最大化
或者只是从 Action-State Q-Value 表中选择具有当前操作的下一个状态的最大值?
提前致谢。