我正在努力理解马尔可夫决策过程的一个方面。
当我处于状态 s 并执行动作 a 时,到达状态 s+1 是确定性的还是随机的?
在大多数示例中,它似乎是确定性的。然而,我在下图中发现了一个示例(David Silvers 关于 RL 的讲座),其中的过渡是随机的。即跟随动作“Pub”。
我正在努力理解马尔可夫决策过程的一个方面。
当我处于状态 s 并执行动作 a 时,到达状态 s+1 是确定性的还是随机的?
在大多数示例中,它似乎是确定性的。然而,我在下图中发现了一个示例(David Silvers 关于 RL 的讲座),其中的过渡是随机的。即跟随动作“Pub”。