reinforcement-learning - 奖励与前一个状态或下一个状态有关吗？

问问题 2021-01-03T16:46:37.467

61 次

1

在强化学习框架中，我对奖励以及它与状态的关系有点困惑。例如，在 Q-learning 中，我们有以下公式用于更新 Q 表：

这意味着奖励是在时间 t+1 从环境中获得的。我的意思是在应用动作 a _t之后，环境给出 s _t+1和 r _t+1。

奖励通常与前一个时间步相关联，即在上述公式中使用 r _{t 。}例如，参见 Q-learning 的 Wikipedia 页面 ( https://en.wikipedia.org/wiki/Q-learning )。为什么是这样？

偶然地，一些关于相同主题但使用不同语言的维基百科页面使用 r _t+1（或意外地 R _t+1）。例如，参见意大利语和日语页面：

0 回答 0