问题标签 [markov-decision-process]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1004 浏览

python-3.x - 如何在 Python 中忽略文本文件中某行的某些部分?

我正在尝试从下面的 input.txt 文件中提取数字信息。

如您所见,有些行包含整数,有些包含整数列表,有些包含元组列表。但是,我特别希望能够检查一行的开头(使用 startswith() 函数),然后忽略我正在检查的部分。以下是我到目前为止的内容:

我只是不太确定如何基本上忽略冒号之前的单词而只查看它之后的数字,特别是考虑到根据我需要的内容(整数、列表、列表元组等)。任何帮助将不胜感激,谢谢!

0 投票
2 回答
415 浏览

machine-learning - 为什么强盗问题在强化学习中也被称为一步/状态 MDP?

1 步/状态 MDP(马尔可夫决策过程)是什么意思?

0 投票
2 回答
49 浏览

python - 为什么在循环内部或外部初始化变量会改变代码行为?

作为我学习的一部分,我正在为 gridworld 环境在 python 中实现策略迭代。我写了以下代码:

这段代码工作正常。但是,当我只是更改要在 for 循环之外声明的 '''policy_converged''' 变量的位置时,

其余代码保持不变。在这种情况下,程序开始进入无限循环并且永远不会停止,即使我根据主 while 循环内每次迭代后的性能更改标志的值。为什么会这样?

0 投票
1 回答
150 浏览

python - 如何在 Python 中为字符串数据构建马尔可夫决策过程模型?

我有一个数据集,其中包含通过 URI 表示的数据。我想对可以从我的顺序数据中预测数据样本的前任和后继的数据进行建模。数据集如下所示: 顺序数据集

例如,给定“HTTP://example.com/112”,模型生成“HTTP://example.com/296”作为前任,“HTTP://example.com/322”作为后继。我想为此数据集构建马尔可夫决策过程模型以获得上述结果。如果有人能帮我找到适合 Python 的包,那就太好了。我检查了“hmmlearn”包,我可以用它来实现一个隐藏的马尔可夫模型。但是我的数据没有隐藏状态。另外,我不确定是否应该将这些数据转换为数值数据,然后我才能建立马尔可夫模型。

先感谢您!

0 投票
1 回答
241 浏览

reinforcement-learning - Sutton 的 RL 书中的 Gridworld:如何计算角单元的值函数?

参考 Sutton 和 Barto 的 RL 书,第 2 版,Ch-3,pg-60。

这是 5x5 网格世界和每个状态的值: gridoworld with state values

使用 Bellman Backup 方程,可以计算每个状态的值:

这是中间 (3,3) 单元格的计算:

状态值的计算

使用来自上、下、左和右单元格的值,以及具有pi = 1/4 所有转换概率的随机策略p(s',r|s,a) = 1,计算成立。

但是角落细胞呢?

比如说,左上角的 3.3。那怎么计算呢?

仅使用较低的 (1.5) 和正确的 (8.8) 值是行不通的。另外,必须考虑的是,当智能体执行上左动作时,它仍然在网格上,但获得了 -1 的奖励。

你能帮我计算角落单元格的值吗?阅读 github 实现也无济于事。

0 投票
1 回答
389 浏览

state - 深度 Q 学习的输入状态

我正在使用 DQN 进行资源分配,代理应将到达请求分配给最佳虚拟机。我正在修改 Cartpole 代码如下:

Cartpole 状态作为 Q 网络的输入是由环境给定的。

问题是在我的代码中 Q 网络的输入是什么?因为代理应该根据到达请求的大小采取最好的行动,但这不是由环境给出的。我应该通过这个输入值,大小来输入 Q 网络吗?

0 投票
1 回答
135 浏览

reinforcement-learning - 网格世界中的终端状态是什么?

我正在学习马尔可夫决策过程。我不知道在哪里标记终端状态。

在 4x3 网格世界中,我用 T 标记了我认为正确(我可能是错的)的终端状态。 Pic

我看到一个指令标记终端状态如下。

有人可以解释它是如何工作的吗?

0 投票
1 回答
34 浏览

machine-learning - 寻找用于操作大规模马尔可夫决策过程 (MDP) 的库

我有一个问题,我想将其表示为大规模马尔可夫决策过程。我希望有一个可以预测状态转换和奖励的模型,但我想推断价值函数和策略函数。价值函数和“Q”函数的近似推断以及通过线性模型或神经网络会做得很好。

一个关键要求:我将扩大我的状态空间,使其无法在内存中表示。我需要通过表征状态的特征值来表示状态。

是否有库可以帮助我推断这种大规模环境中的价值和政策功能?我遇到的大多数马尔可夫决策过程库似乎都面向非常小规模的问题和精确的推理。

如果没有交钥匙解决方案,是否有人对如何构建这样一个系统有建议?

0 投票
1 回答
27 浏览

reinforcement-learning - 马尔可夫决策过程中的建模动作使用限制

我有一个带有一定数量状态和动作的马尔可夫决策过程。我想在我的模型中加入一个动作,它只能在任何状态下使用一次,并且在使用时不能再次使用。如何在我的状态图中建模此操作?我想有一个单独的状态并使用 -inf 来获得奖励,但这些似乎都没有奏效。谢谢!

0 投票
1 回答
180 浏览

reinforcement-learning - 如何在 GYM 中创建范围从 0 到 10 的动作空间,连续动作之间的差异为 0.5?

我打算在 GYM 中创建范围从 0 到 10 的动作空间