问题标签 [mdptoolbox]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2761 浏览

python - 马尔可夫决策过程的转移矩阵必须是随机的吗?

我正在尝试使用值迭代(通过 pymdptoolbox)和 NumPy找到此图中指定的马尔可夫决策过程问题的最佳策略。但是 pymdptoolbox 说我的转换矩阵“不是随机的”。

是因为有 [0, 0, 0, 0] 的数组吗?有些转换是不可能的,比如从状态 1 到状态 3。如果不使用零,我该如何表示这些不可能的转换?

我的代码:

0 投票
1 回答
376 浏览

python - 当我尝试将值迭代算法与 mdptoolbox 一起使用时出现溢出错误

我为具有 4 种可能状态和 4 种可能动作的板设置了一个简单的 MDP。董事会和奖励设置如下所示:

在此处输入图像描述

这里S4是目标状态,S2也是吸收状态。我在编写的代码中定义了转移概率矩阵和奖励矩阵,以获得该 MDP 的最佳值函数。但是当我运行代码时,我收到一条错误消息:OverflowError: cannot convert float infinity to integer. 我不明白这是为什么。

如果我将值更改discount1from 0.5,它工作正常。0.5值迭代不能使用折扣值或任何其他十进制值的原因可能是什么?

更新:我的奖励矩阵似乎有问题。我无法按照我的预期写它。因为如果我改变奖励矩阵中的一些值,错误就会消失。

0 投票
2 回答
2359 浏览

python - ModuleNotFoundError:没有名为“mdptoolbox”的模块

mdptoolbox导入模块时收到错误消息。

错误日志:


ModuleNotFoundError Traceback (最近一次调用 last) in () ----> 1 import mdptoolbox, mdptoolbox.example

ModuleNotFoundError:没有名为“mdptoolbox”的模块

如何解决错误?

0 投票
1 回答
966 浏览

python - 了解 mdptoolbox 森林示例的参数值

我正在尝试了解如何使用mdptoolbox并有几个问题。

以下语句中的含义是什么20

我知道10这里表示可能状态的数量。这里是什么20意思?它是否代表每个状态的动作总数?我想将 MDP 限制为每个状态恰好 2 个动作。我怎么能这样做?

P上面返回的形状是(2, 10, 10)。这里代表什么2?无论我对总状态和动作使用什么值,它始终是2.

0 投票
0 回答
10 浏览

reinforcement-learning - POMDP 求解器的分段错误

我正在尝试使用 POMDP 求解器求解我的 POMDP 模型,但它不断引发 Seg Fault 错误。我在文本编辑中编写了我的 POMDP 文件,然后用 .POMDP 扩展名保存了它,不确定这是否是问题所在,或者它是否是我的代码。

在此处输入图像描述

0 投票
2 回答
38 浏览

python - Python 返回两个相同的矩阵

我正在尝试使用 Python 为马尔可夫决策过程(库存问题)编写一个小程序。我无法弄清楚为什么程序会输出两个相同的矩阵(用于利润和决策矩阵)。编程本身也有一些问题,因为最后两列都是零,这是不应该发生的。对程序本身的任何帮助也将非常有帮助!

这是输出