问题标签 [mdptoolbox]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 马尔可夫决策过程的转移矩阵必须是随机的吗?
我正在尝试使用值迭代(通过 pymdptoolbox)和 NumPy找到此图中指定的马尔可夫决策过程问题的最佳策略。但是 pymdptoolbox 说我的转换矩阵“不是随机的”。
是因为有 [0, 0, 0, 0] 的数组吗?有些转换是不可能的,比如从状态 1 到状态 3。如果不使用零,我该如何表示这些不可能的转换?
我的代码:
python - 当我尝试将值迭代算法与 mdptoolbox 一起使用时出现溢出错误
我为具有 4 种可能状态和 4 种可能动作的板设置了一个简单的 MDP。董事会和奖励设置如下所示:
这里S4
是目标状态,S2
也是吸收状态。我在编写的代码中定义了转移概率矩阵和奖励矩阵,以获得该 MDP 的最佳值函数。但是当我运行代码时,我收到一条错误消息:OverflowError: cannot convert float infinity to integer
. 我不明白这是为什么。
如果我将值更改discount
为1
from 0.5
,它工作正常。0.5
值迭代不能使用折扣值或任何其他十进制值的原因可能是什么?
更新:我的奖励矩阵似乎有问题。我无法按照我的预期写它。因为如果我改变奖励矩阵中的一些值,错误就会消失。
python - ModuleNotFoundError:没有名为“mdptoolbox”的模块
mdptoolbox
导入模块时收到错误消息。
错误日志:
ModuleNotFoundError Traceback (最近一次调用 last) in () ----> 1 import mdptoolbox, mdptoolbox.example
ModuleNotFoundError:没有名为“mdptoolbox”的模块
如何解决错误?
python - 了解 mdptoolbox 森林示例的参数值
我正在尝试了解如何使用mdptoolbox并有几个问题。
以下语句中的含义是什么20
?
我知道10
这里表示可能状态的数量。这里是什么20
意思?它是否代表每个状态的动作总数?我想将 MDP 限制为每个状态恰好 2 个动作。我怎么能这样做?
P
上面返回的形状是(2, 10, 10)
。这里代表什么2
?无论我对总状态和动作使用什么值,它始终是2
.
reinforcement-learning - POMDP 求解器的分段错误
我正在尝试使用 POMDP 求解器求解我的 POMDP 模型,但它不断引发 Seg Fault 错误。我在文本编辑中编写了我的 POMDP 文件,然后用 .POMDP 扩展名保存了它,不确定这是否是问题所在,或者它是否是我的代码。
python - Python 返回两个相同的矩阵
我正在尝试使用 Python 为马尔可夫决策过程(库存问题)编写一个小程序。我无法弄清楚为什么程序会输出两个相同的矩阵(用于利润和决策矩阵)。编程本身也有一些问题,因为最后两列都是零,这是不应该发生的。对程序本身的任何帮助也将非常有帮助!
这是输出