我正在尝试了解如何使用mdptoolbox并有几个问题。
以下语句中的含义是什么20?
P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)
我知道10这里表示可能状态的数量。这里是什么20意思?它是否代表每个状态的动作总数?我想将 MDP 限制为每个状态恰好 2 个动作。我怎么能这样做?
P上面返回的形状是(2, 10, 10)。这里代表什么2?无论我对总状态和动作使用什么值,它始终是2.
我正在尝试了解如何使用mdptoolbox并有几个问题。
以下语句中的含义是什么20?
P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)
我知道10这里表示可能状态的数量。这里是什么20意思?它是否代表每个状态的动作总数?我想将 MDP 限制为每个状态恰好 2 个动作。我怎么能这样做?
P上面返回的形状是(2, 10, 10)。这里代表什么2?无论我对总状态和动作使用什么值,它始终是2.