问题标签 [markov-decision-process]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
algorithm - 具有价值迭代的马尔可夫决策过程的动态规划
我正在学习MDP
和value iteration
自学,我希望有人能提高我的理解。
考虑一个有数字的 3 面骰子的问题1, 2, 3
。如果您掷出 a1
或 a 2
,您将获得该值,$
但如果您掷出 a 3
,您将失去所有钱,游戏结束 ( finite horizon problem
)
从概念上讲,我了解如何使用以下论坛完成此操作:
所以让我们分解一下:
由于这是一个finite horizon
我们可以忽略的问题gamma
。
如果我observe 1
,我可以go
要么stop
。那utility/value
就是:
我observe 2
,我可以go
或者stop
:
我观察3,游戏结束。
直觉V(3)
上是0
因为游戏结束了,所以我们可以从方程中去掉那一半Q(1, g)
。我们在上面也定义V(2)
了,因此我们可以将其替换为:
这就是事情发生转折的地方。Q(1, g)
如果它的解决方案中有自己的定义,我不确定如何解决。这可能是由于糟糕的数学背景。
我所理解的是,效用或状态的价值会根据奖励而改变,因此决定也会改变。
具体来说,如果滚动三给了您$3
而滚动一结束了游戏,那将影响您的决定,因为实用程序已更改。
但我不确定如何编写代码来计算它。
有人可以解释动态编程是如何工作的吗?我该如何解决Q(1,g)
或Q(1,s)
当它在自己的定义中?
machine-learning - What is a policy in reinforcement learning?
I've seen such words as:
A policy defines the learning agent's way of behaving at a given time. Roughly speaking, a policy is a mapping from perceived states of the environment to actions to be taken when in those states.
But still didn't fully understand. What exactly is a policy in reinforcement learning?
reinforcement-learning - 在状态 s 的动作 a 之后,结果是概率性的还是确定性的?
我正在努力理解马尔可夫决策过程的一个方面。
当我处于状态 s 并执行动作 a 时,到达状态 s+1 是确定性的还是随机的?
在大多数示例中,它似乎是确定性的。然而,我在下图中发现了一个示例(David Silvers 关于 RL 的讲座),其中的过渡是随机的。即跟随动作“Pub”。
credit-card - 通过马尔可夫决策过程对信用卡的盈利能力进行建模。
这是参考发表在建模信用卡盈利能力上的一篇论文,由处理的马尔可夫决策。我正在尝试使用 Mdptoolbox 在 python 中实现相同的功能,但没有获得预期格式的输出。
我的状态是客户当前风险评分和当前信用额度的组合。我的行动是增加客户的限额。
我已经为每个状态准备了我的转换概率。
在使用 Python MDPtoolbox 运行 MDP 代码时,我得到了一个不足以满足我使用的策略向量,因为我需要为每个风险评分和信用额度的组合制定最佳策略。我当前的输出告诉我将特定风险范围的限制增加到一个新的限制,这太通用了。
我得到的最终政策是:
这只表示将风险评分为 S1 的客户的限制增加到限制 2,依此类推。这太笼统了。我期待的是矩阵策略,它告诉我应该为信用风险评分和限制的每种组合增加多少限制。
artificial-intelligence - POMDP 中的“可控动作”是什么意思?
我有一些与 POMDP 相关的问题。
在部分可观察的马尔可夫决策过程中,我们所说的可控动作是什么意思?或者在隐马尔可夫状态下没有可控动作?
当通过价值或策略迭代计算策略时,我们是否可以说 POMDP 是一个专家系统(因为我们对环境进行建模)?而当使用Q-learning时,它在智能或对不断变化的环境的适应性方面是一个更灵活的系统?
python-3.x - 基于python和simpy中马尔可夫决策过程的多地点库存模拟
我想用 python 特别 sympy 实现基于马尔科夫决策过程的多位置库存,但由于我不是 python 和库存管理方面的专家,所以我遇到了一些问题。
我想根据此链接第 12、13、14 页的公式实现:http: //egon.cheme.cmu.edu/ewo/docs/SchaeferMDP.pdf
你能帮我用简单的python实现这些公式吗?
谢谢
reinforcement-learning - 如何在非平稳环境中求解确定性 MDP
我正在寻找一种解决马尔可夫决策过程(MDP)的方法。我知道从一种状态到另一种状态的转变是确定性的,但环境是不稳定的。这意味着代理在再次访问相同状态时获得的奖励可能不同。有没有一种算法,比如 Q-Learning 或 SARSA,可以用来解决我的问题?
reinforcement-learning - 为什么我们需要在 RL(Q-Learning)中进行利用以实现收敛?
我正在实施 Q 学习算法,我观察到我的 Q 值没有收敛到最优 Q 值,即使策略似乎正在收敛。我将动作选择策略定义为 epsilon-greedy,并且 epsilon 从 1 开始减少 1/N(N 是迭代的总数)。这样,在早期的迭代中,算法探索随机状态,然后这个速率逐渐降低,导致被利用。此外,我将学习率定义为 1/N_t(s,a),其中 N_t(s,a) 是访问 (s,a) 的总次数。
一切似乎都是正确的,但由于我无法达到最佳 Q 值,我开始研究不同的策略,同时变得非常困惑。我知道当所有 (s,a) 对被无限频繁地访问时,就可以实现收敛。这不等于说所有 (s,a) 对都被探索了很多次吗?换句话说,为什么我们需要利用来实现收敛?如果我们不利用而只专注于探索怎么办?如果我们这样做,我们会搜索所有的解决方案空间,因此这还不足以找到最优策略吗?
此外,当它说 Q 值收敛到最优值时,只有 max_a[Q(s,a)] 收敛到它的最优值还是所有 Q(s,a) 值收敛到它们的最优值?
可能所有这些都有一个简单的答案,但是即使我检查了很多资源和类似的线程,我仍然无法弄清楚利用背后的逻辑。非常感谢您提前抽出时间!