问题标签 [mdp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
775 浏览

model - 强化学习模型和策略有什么区别

这两个定义似乎都表明它们正在从状态映射到动作,那么有什么区别还是我错了?

0 投票
1 回答
42 浏览

formula - 这两个不同的价值迭代更新公式是否等效?

在通过不同来源研究 MDP 时,我遇到了两个不同的用于 Value-Iteration 算法中的值更新的公式。

第一个是(维基百科上的那个和几本书):

第一个方程 .
第二个是(在堆栈上的一些问题中,我的课程幻灯片):第二个方程

对于特定的迭代,他们似乎没有给出相同的答案。其中之一是否更快地收敛到解决方案?

0 投票
2 回答
415 浏览

machine-learning - 为什么强盗问题在强化学习中也被称为一步/状态 MDP?

1 步/状态 MDP(马尔可夫决策过程)是什么意思?

0 投票
2 回答
49 浏览

python - 为什么在循环内部或外部初始化变量会改变代码行为?

作为我学习的一部分,我正在为 gridworld 环境在 python 中实现策略迭代。我写了以下代码:

这段代码工作正常。但是,当我只是更改要在 for 循环之外声明的 '''policy_converged''' 变量的位置时,

其余代码保持不变。在这种情况下,程序开始进入无限循环并且永远不会停止,即使我根据主 while 循环内每次迭代后的性能更改标志的值。为什么会这样?

0 投票
1 回答
39 浏览

android - 如何使用 MDP 向 TWRP 传输文件?

我一直在尝试安装 Pixel Experience ROM。我重置了我的三星 Galaxy S7,打开了 TWRP,并启用了 MDP。但是,当我在 PC 上打开文件资源管理器并打开系统文件夹时,什么也没有显示。“文件夹是空的。”

我试图弄清楚如何将文件夹移动PixelExperience_Plus_herolte-10.0-20200927-1516-OFFICIAL.zip到安装在手机上的 SD 卡上。

我希望你能帮忙。感谢您的关注。

0 投票
0 回答
10 浏览

reinforcement-learning - POMDP 求解器的分段错误

我正在尝试使用 POMDP 求解器求解我的 POMDP 模型,但它不断引发 Seg Fault 错误。我在文本编辑中编写了我的 POMDP 文件,然后用 .POMDP 扩展名保存了它,不确定这是否是问题所在,或者它是否是我的代码。

在此处输入图像描述

0 投票
2 回答
38 浏览

python - Python 返回两个相同的矩阵

我正在尝试使用 Python 为马尔可夫决策过程(库存问题)编写一个小程序。我无法弄清楚为什么程序会输出两个相同的矩阵(用于利润和决策矩阵)。编程本身也有一些问题,因为最后两列都是零,这是不应该发生的。对程序本身的任何帮助也将非常有帮助!

这是输出