0

我正在尝试了解如何使用mdptoolbox并有几个问题。

以下语句中的含义是什么20

P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)

我知道10这里表示可能状态的数量。这里是什么20意思?它是否代表每个状态的动作总数?我想将 MDP 限制为每个状态恰好 2 个动作。我怎么能这样做?

P上面返回的形状是(2, 10, 10)。这里代表什么2?无论我对总状态和动作使用什么值,它始终是2.

4

1 回答 1

1
于 2019-06-08T17:53:51.193 回答