0
\begin{equation}
​Q_{t+1}(s_t,a_t) = Q_{t}(s_t,a_t) +\alpha
(R_{t+1} + \gamma * \max(Q_t(s_{t+1}, a)) - Q_t(s_t, a_t))
\end{equation}

在上面的等式中,有一个术语max(Q_t(s_{t+1},a)) Now say after you take a action in states_t导致 s _{t+1}。s_{t+1} 中没有可用的移动。比赛以平局结束,max(Q_t(s_{t+1},a))那这是什么?

4

1 回答 1

2

根据 V 和 Q 函数的定义,终端(又名吸收)状态的值是 0,可以在Rich Sutton 的书的第 3.7 节中阅读:

在此处输入图像描述

于 2016-06-13T09:17:56.463 回答