问题标签 [markov-decision-process]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2124 浏览

algorithm - 具有价值迭代的马尔可夫决策过程的动态规划

我正在学习MDPvalue iteration自学,我希望有人能提高我的理解。

考虑一个有数字的 3 面骰子的问题1, 2, 3。如果您掷出 a1或 a 2,您将获得该值,$但如果您掷出 a 3,您将失去所有钱,游戏结束 ( finite horizon problem)

从概念上讲,我了解如何使用以下论坛完成此操作:

在此处输入图像描述

所以让我们分解一下:

由于这是一个finite horizon我们可以忽略的问题gamma

如果我observe 1,我可以go要么stop。那utility/value就是:

observe 2,我可以go或者stop

我观察3,游戏结束。

直觉V(3)上是0因为游戏结束了,所以我们可以从方程中去掉那一半Q(1, g)。我们在上面也定义V(2)了,因此我们可以将其替换为:

这就是事情发生转折的地方。Q(1, g)如果它的解决方案中有自己的定义,我不确定如何解决。这可能是由于糟糕的数学背景。

我所理解的是,效用或状态的价值会根据奖励而改变,因此决定也会改变。

具体来说,如果滚动三给了您$3而滚动一结束了游戏,那将影响您的决定,因为实用程序已更改。

但我不确定如何编写代码来计算它。

有人可以解释动态编程是如何工作的吗?我该如何解决Q(1,g)Q(1,s)当它在自己的定义中?

0 投票
3 回答
36649 浏览

machine-learning - What is a policy in reinforcement learning?

I've seen such words as:

A policy defines the learning agent's way of behaving at a given time. Roughly speaking, a policy is a mapping from perceived states of the environment to actions to be taken when in those states.

But still didn't fully understand. What exactly is a policy in reinforcement learning?

0 投票
1 回答
57 浏览

reinforcement-learning - 在状态 s 的动作 a 之后,结果是概率性的还是确定性的?

我正在努力理解马尔可夫决策过程的一个方面。

当我处于状态 s 并执行动作 a 时,到达状态 s+1 是确定性的还是随机的?

在大多数示例中,它似乎是确定性的。然而,我在下图中发现了一个示例(David Silvers 关于 RL 的讲座),其中的过渡是随机的。即跟随动作“Pub”。

图形

0 投票
0 回答
311 浏览

credit-card - 通过马尔可夫决策过程对信用卡的盈利能力进行建模。

这是参考发表在建模信用卡盈利能力上的一篇论文,由处理的马尔可夫决策。我正在尝试使用 Mdptoolbox 在 python 中实现相同的功能,但没有获得预期格式的输出。

我的状态是客户当前风险评分和当前信用额度的组合。我的行动是增加客户的限额。

我已经为每个状态准备了我的转换概率。

在使用 Python MDPtoolbox 运行 MDP 代码时,我得到了一个不足以满足我使用的策略向量,因为我需要为每个风险评分和信用额度的组合制定最佳策略。我当前的输出告诉我将特定风险范围的限制增加到一个新的限制,这太通用了。

我得到的最终政策是:

这只表示将风险评分为 S1 的客户的限制增加到限制 2,依此类推。这太笼统了。我期待的是矩阵策略,它告诉我应该为信用风险评分和限制的每种组合增加多少限制。

0 投票
1 回答
357 浏览

artificial-intelligence - POMDP 中的“可控动作”是什么意思?

我有一些与 POMDP 相关的问题。

  1. 在部分可观察的马尔可夫决策过程中,我们所说的可控动作是什么意思?或者在隐马尔可夫状态下没有可控动作?

  2. 当通过价值或策略迭代计算策略时,我们是否可以说 POMDP 是一个专家系统(因为我们对环境进行建模)?而当使用Q-learning时,它在智能或对不断变化的环境的适应性方面是一个更灵活的系统?

0 投票
2 回答
1938 浏览

equation - 带有策略的状态值和状态动作值 - 带有策略的贝尔曼方程

我刚刚开始使用深度强化学习,我正试图扼杀这个概念。

我有这个确定性贝尔曼方程

确定性贝尔曼方程

当我从 MDP 实现随机性时,我得到 2.6a

在确定性服务员中实施 MDP

我的等式是这个假设正确的。我看到这个实现 2.6a 在状态值函数上没有策略标志。但对我来说,这没有任何意义,因为我正在使用我可能最终进入哪些不同的下一步的概率。我认为这与说政策相同。如果是 2.6a 是正确的,那么我可以假设其余部分(2.6b 和 2.6c),因为那时我想像这样编写动作状态函数:

带有策略的状态动作函数

我之所以这样做,是因为我想从确定性的角度向非确定性的角度解释自己。

我希望有人可以帮助解决这个问题!

最好的问候索伦科赫

0 投票
0 回答
195 浏览

python-3.x - 基于python和simpy中马尔可夫决策过程的多地点库存模拟

我想用 python 特别 sympy 实现基于马尔科夫决策过程的多位置库存,但由于我不是 python 和库存管理方面的专家,所以我遇到了一些问题。

我想根据此链接第 12、13、14 页的公式实现:http: //egon.cheme.cmu.edu/ewo/docs/SchaeferMDP.pdf

你能帮我用简单的python实现这些公式吗?

谢谢

0 投票
1 回答
507 浏览

reinforcement-learning - 如何在非平稳环境中求解确定性 MDP

我正在寻找一种解决马尔可夫决策过程(MDP)的方法。我知道从一种状态到另一种状态的转变是确定性的,但环境是不稳定的。这意味着代理在再次访问相同状态时获得的奖励可能不同。有没有一种算法,比如 Q-Learning 或 SARSA,可以用来解决我的问题?

0 投票
2 回答
678 浏览

reinforcement-learning - 为什么我们需要在 RL(Q-Learning)中进行利用以实现收敛?

我正在实施 Q 学习算法,我观察到我的 Q 值没有收敛到最优 Q 值,即使策略似乎正在收敛。我将动作选择策略定义为 epsilon-greedy,并且 epsilon 从 1 开始减少 1/N(N 是迭代的总数)。这样,在早期的迭代中,算法探索随机状态,然后这个速率逐渐降低,导致被利用。此外,我将学习率定义为 1/N_t(s,a),其中 N_t(s,a) 是访问 (s,a) 的总次数。

一切似乎都是正确的,但由于我无法达到最佳 Q 值,我开始研究不同的策略,同时变得非常困惑。我知道当所有 (s,a) 对被无限频繁地访问时,就可以实现收敛。这不等于说所有 (s,a) 对都被探索了很多次吗?换句话说,为什么我们需要利用来实现收敛?如果我们不利用而只专注于探索怎么办?如果我们这样做,我们会搜索所有的解决方案空间,因此这还不足以找到最优策略吗?

此外,当它说 Q 值收敛到最优值时,只有 max_a[Q(s,a)] 收敛到它的最优值还是所有 Q(s,a) 值收敛到它们的最优值?

可能所有这些都有一个简单的答案,但是即使我检查了很多资源和类似的线程,我仍然无法弄清楚利用背后的逻辑。非常感谢您提前抽出时间!

0 投票
1 回答
534 浏览

python-3.x - 迷宫的 MDP 策略图

我有一个 5x-5 的迷宫,指定如下。

其中 1 是路径,0 是墙壁。

假设我有一个函数 foo(policy_vector, r) 将策略向量的元素映射到 r 中的元素。例如 1=上,2=右,3=下,4=左。MDP 的设置使得墙状态永远不会实现,因此这些状态的策略在图中被忽略。

我试图在解决迷宫的背景下展示我对马尔可夫决策过程的政策决定。我将如何绘制看起来像这样的东西?Matlab 更可取,但 Python 很好。

在此处输入图像描述

即使有人可以告诉我如何制作这样的情节,我也可以从那里弄清楚。

在此处输入图像描述