reinforcement-learning - 吸收状态的 Q 值

问问题 2016-06-13T07:16:00.490

122 次

0

\begin{equation}
Q_{t+1}(s_t,a_t) = Q_{t}(s_t,a_t) +\alpha
(R_{t+1} + \gamma * \max(Q_t(s_{t+1}, a)) - Q_t(s_t, a_t))
\end{equation}

在上面的等式中，有一个术语max(Q_t(s_{t+1},a)) Now say after you take a action in states_t导致 s _{t+1}。s_{t+1} 中没有可用的移动。比赛以平局结束，max(Q_t(s_{t+1},a))那这是什么？

1 回答 1

2

根据 V 和 Q 函数的定义，终端（又名吸收）状态的值是 0，可以在Rich Sutton 的书的第 3.7 节中阅读：

于 2016-06-13T09:17:56.463 回答