2

我正在学习马尔可夫决策过程。我不知道在哪里标记终端状态。

在 4x3 网格世界中,我用 T 标记了我认为正确(我可能是错的)的终端状态。 Pic

我看到一个指令标记终端状态如下。

terminals=[(3, 2), (3, 1)]

有人可以解释它是如何工作的吗?

4

1 回答 1

0

在给定的网格世界中,您从 (0,0) 的“开始”开始。然后你从那个点开始。如果您到达“end +1”{(3,2)},则奖励为 +1,游戏结束。同样,如果您到达“end -1”{(3,1)},则奖励为 -1,游戏结束。然而,当你四处移动时,你不能移动到 {(1,1)} 作为它的无效状态。此外,如果您达到任何处于 {(2,0) 和 (2,1)} 的终端状态“T”,那么游戏将以零奖励结束。

于 2020-11-02T09:23:48.890 回答