0

我正在努力理解马尔可夫决策过程的一个方面。

当我处于状态 s 并执行动作 a 时,到达状态 s+1 是确定性的还是随机的?

在大多数示例中,它似乎是确定性的。然而,我在下图中发现了一个示例(David Silvers 关于 RL 的讲座),其中的过渡是随机的。即跟随动作“Pub”。

图形

4

1 回答 1

1

通常,在马尔可夫决策过程中,状态之间的转换可以是随机的。通常转移到另一个状态的概率用 表示P_a(s, s'),其中s是当前状态、s'下一个状态和a执行的动作。

确定性案例是随机案例的一种特殊情况。如果 P_a(s, s') 对于给定状态等于 1,s'对于剩余状态等于 0,则我们有一个确定性转换。

于 2017-11-17T08:00:06.480 回答