问题标签 [mdptoolbox]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

6 问题

0 投票

2 回答

2761 浏览

python - 马尔可夫决策过程的转移矩阵必须是随机的吗？

我正在尝试使用值迭代（通过 pymdptoolbox）和 NumPy找到此图中指定的马尔可夫决策过程问题的最佳策略。但是 pymdptoolbox 说我的转换矩阵“不是随机的”。

是因为有 [0, 0, 0, 0] 的数组吗？有些转换是不可能的，比如从状态 1 到状态 3。如果不使用零，我该如何表示这些不可能的转换？

我的代码：

2017-04-27T18:50:35.617

0 投票

1 回答

376 浏览

python - 当我尝试将值迭代算法与 mdptoolbox 一起使用时出现溢出错误

我为具有 4 种可能状态和 4 种可能动作的板设置了一个简单的 MDP。董事会和奖励设置如下所示：

这里S4是目标状态，S2也是吸收状态。我在编写的代码中定义了转移概率矩阵和奖励矩阵，以获得该 MDP 的最佳值函数。但是当我运行代码时，我收到一条错误消息：OverflowError: cannot convert float infinity to integer. 我不明白这是为什么。

如果我将值更改discount为1from 0.5，它工作正常。0.5值迭代不能使用折扣值或任何其他十进制值的原因可能是什么？

更新：我的奖励矩阵似乎有问题。我无法按照我的预期写它。因为如果我改变奖励矩阵中的一些值，错误就会消失。

python dynamic-programming markov-chains stochastic mdptoolbox

2018-11-21T11:56:10.443

0 投票

2 回答

2359 浏览