我正在尝试了解如何使用mdptoolbox并有几个问题。
以下语句中的含义是什么20
?
P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)
我知道10
这里表示可能状态的数量。这里是什么20
意思?它是否代表每个状态的动作总数?我想将 MDP 限制为每个状态恰好 2 个动作。我怎么能这样做?
P
上面返回的形状是(2, 10, 10)
。这里代表什么2
?无论我对总状态和动作使用什么值,它始终是2
.
我正在尝试了解如何使用mdptoolbox并有几个问题。
以下语句中的含义是什么20
?
P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)
我知道10
这里表示可能状态的数量。这里是什么20
意思?它是否代表每个状态的动作总数?我想将 MDP 限制为每个状态恰好 2 个动作。我怎么能这样做?
P
上面返回的形状是(2, 10, 10)
。这里代表什么2
?无论我对总状态和动作使用什么值,它始终是2
.