我正在做一个副项目,该项目正在对倒立摆问题进行建模,并使用强化学习算法(最著名的是 Q-Learning)来解决它。我已经为网格世界设计了一个简单的 MDP 求解器——简单的东西。
然而,经过几天的研究论文搜索,我正在努力弄清楚如何做到这一点。没有什么可以解释如何建立一个表示问题的框架。
在建模问题时,可以使用标准的马尔可夫决策过程吗?还是必须是 POMDP?
每个状态代表什么(即传递给代理的状态信息是什么)?摆的坐标,速度,角度等?
代理可以采取什么行动?它是 + 或 - x 方向上的连续速度范围吗?
非常感谢您对此提供建议。