问题标签 [mdp]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

27 问题

0 投票

1 回答

775 浏览

model - 强化学习模型和策略有什么区别

这两个定义似乎都表明它们正在从状态映射到动作，那么有什么区别还是我错了？

model reinforcement-learning policy mdp

2019-07-27T10:34:33.993

0 投票

1 回答

42 浏览

formula - 这两个不同的价值迭代更新公式是否等效？

在通过不同来源研究 MDP 时，我遇到了两个不同的用于 Value-Iteration 算法中的值更新的公式。

第一个是（维基百科上的那个和几本书）：

.
第二个是（在堆栈上的一些问题中，我的课程幻灯片）：

对于特定的迭代，他们似乎没有给出相同的答案。其中之一是否更快地收敛到解决方案？

formula mdp value-iteration

2019-12-10T01:17:49.257

0 投票

2 回答

415 浏览

machine-learning - 为什么强盗问题在强化学习中也被称为一步/状态 MDP？

1 步/状态 MDP（马尔可夫决策过程）是什么意思？

machine-learning reinforcement-learning markov-decision-process mdp bandit

2020-02-11T08:12:13.597

0 投票

2 回答

49 浏览

python - 为什么在循环内部或外部初始化变量会改变代码行为？

作为我学习的一部分，我正在为 gridworld 环境在 python 中实现策略迭代。我写了以下代码：

这段代码工作正常。但是，当我只是更改要在 for 循环之外声明的 '''policy_converged''' 变量的位置时，

其余代码保持不变。在这种情况下，程序开始进入无限循环并且永远不会停止，即使我根据主 while 循环内每次迭代后的性能更改标志的值。为什么会这样？

python deep-learning reinforcement-learning markov-decision-process mdp

2020-06-05T22:33:08.667

0 投票

1 回答

39 浏览

android - 如何使用 MDP 向 TWRP 传输文件？

我一直在尝试安装 Pixel Experience ROM。我重置了我的三星 Galaxy S7，打开了 TWRP，并启用了 MDP。但是，当我在 PC 上打开文件资源管理器并打开系统文件夹时，什么也没有显示。“文件夹是空的。”

我试图弄清楚如何将文件夹移动PixelExperience_Plus_herolte-10.0-20200927-1516-OFFICIAL.zip到安装在手机上的 SD 卡上。

我希望你能帮忙。感谢您的关注。

android samsung-mobile mdp

2021-01-14T02:31:23.517

0 投票

0 回答

10 浏览

reinforcement-learning - POMDP 求解器的分段错误

我正在尝试使用 POMDP 求解器求解我的 POMDP 模型，但它不断引发 Seg Fault 错误。我在文本编辑中编写了我的 POMDP 文件，然后用 .POMDP 扩展名保存了它，不确定这是否是问题所在，或者它是否是我的代码。

在此处输入图像描述

reinforcement-learning solver mdp mdptoolbox

2022-01-31T02:13:05.717

0 投票

2 回答

38 浏览

python - Python 返回两个相同的矩阵

我正在尝试使用 Python 为马尔可夫决策过程（库存问题）编写一个小程序。我无法弄清楚为什么程序会输出两个相同的矩阵（用于利润和决策矩阵）。编程本身也有一些问题，因为最后两列都是零，这是不应该发生的。对程序本身的任何帮助也将非常有帮助！

这是输出

python numpy inventory mdp mdptoolbox

2022-02-01T19:12:03.010

1 2 3 4 5 6 7 8 9 10