问题标签 [mdp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
model - 强化学习模型和策略有什么区别
这两个定义似乎都表明它们正在从状态映射到动作,那么有什么区别还是我错了?
machine-learning - 为什么强盗问题在强化学习中也被称为一步/状态 MDP?
1 步/状态 MDP(马尔可夫决策过程)是什么意思?
python - 为什么在循环内部或外部初始化变量会改变代码行为?
作为我学习的一部分,我正在为 gridworld 环境在 python 中实现策略迭代。我写了以下代码:
这段代码工作正常。但是,当我只是更改要在 for 循环之外声明的 '''policy_converged''' 变量的位置时,
其余代码保持不变。在这种情况下,程序开始进入无限循环并且永远不会停止,即使我根据主 while 循环内每次迭代后的性能更改标志的值。为什么会这样?
android - 如何使用 MDP 向 TWRP 传输文件?
我一直在尝试安装 Pixel Experience ROM。我重置了我的三星 Galaxy S7,打开了 TWRP,并启用了 MDP。但是,当我在 PC 上打开文件资源管理器并打开系统文件夹时,什么也没有显示。“文件夹是空的。”
我试图弄清楚如何将文件夹移动PixelExperience_Plus_herolte-10.0-20200927-1516-OFFICIAL.zip
到安装在手机上的 SD 卡上。
我希望你能帮忙。感谢您的关注。
reinforcement-learning - POMDP 求解器的分段错误
我正在尝试使用 POMDP 求解器求解我的 POMDP 模型,但它不断引发 Seg Fault 错误。我在文本编辑中编写了我的 POMDP 文件,然后用 .POMDP 扩展名保存了它,不确定这是否是问题所在,或者它是否是我的代码。
python - Python 返回两个相同的矩阵
我正在尝试使用 Python 为马尔可夫决策过程(库存问题)编写一个小程序。我无法弄清楚为什么程序会输出两个相同的矩阵(用于利润和决策矩阵)。编程本身也有一些问题,因为最后两列都是零,这是不应该发生的。对程序本身的任何帮助也将非常有帮助!
这是输出