\begin{equation}
Q_{t+1}(s_t,a_t) = Q_{t}(s_t,a_t) +\alpha
(R_{t+1} + \gamma * \max(Q_t(s_{t+1}, a)) - Q_t(s_t, a_t))
\end{equation}
在上面的等式中,有一个术语max(Q_t(s_{t+1},a))
Now say after you take a action in states_t
导致 s _{t+1}
。s_{t+1} 中没有可用的移动。比赛以平局结束,max(Q_t(s_{t+1},a))
那这是什么?