1

在强化学习框架中,我对奖励以及它与状态的关系有点困惑。例如,在 Q-learning 中,我们有以下公式用于更新 Q 表:

q-learning 更新公式

这意味着奖励是在时间 t+1 从环境中获得的。我的意思是在应用动作 a t之后,环境给出 s t+1和 r t+1

奖励通常与前一个时间步相关联,即在上述公式中使用 r t 。例如,参见 Q-learning 的 Wikipedia 页面 ( https://en.wikipedia.org/wiki/Q-learning )。为什么是这样?

偶然地,一些关于相同主题但使用不同语言的维基百科页面使用 r t+1(或意外地 R t+1)。例如,参见意大利语和日语页面:

4

0 回答 0