我正在学习马尔可夫决策过程。我不知道在哪里标记终端状态。
在 4x3 网格世界中,我用 T 标记了我认为正确(我可能是错的)的终端状态。 Pic
我看到一个指令标记终端状态如下。
terminals=[(3, 2), (3, 1)]
有人可以解释它是如何工作的吗?
我正在学习马尔可夫决策过程。我不知道在哪里标记终端状态。
在 4x3 网格世界中,我用 T 标记了我认为正确(我可能是错的)的终端状态。 Pic
我看到一个指令标记终端状态如下。
terminals=[(3, 2), (3, 1)]
有人可以解释它是如何工作的吗?