2

我有一些与 POMDP 相关的问题。

  1. 在部分可观察的马尔可夫决策过程中,我们所说的可控动作是什么意思?或者在隐马尔可夫状态下没有可控动作?

  2. 当通过价值或策略迭代计算策略时,我们是否可以说 POMDP 是一个专家系统(因为我们对环境进行建模)?而当使用Q-learning时,它在智能或对不断变化的环境的适应性方面是一个更灵活的系统?

4

1 回答 1

1

行动

可控行动是决策者做出选择的结果。在经典的 POMDP 老虎问题中,有一只老虎隐藏在两扇门的其中一扇后面。在每个时间步,决策者可以选择倾听或打开其中一扇门。这个场景中的动作是{听,打开左门,打开右门}。从一个状态到另一个状态的转换函数取决于前一个状态和选择的动作。

在隐马尔可夫模型 (HMM) 中,决策者没有任何动作。在老虎问题的背景下,这意味着参与者只能在不开门的情况下聆听。在这种情况下,转移函数只依赖于之前的状态,因为没有动作。

有关老虎问题的更多详细信息,请参阅 Kaelbling Littman 和 Cassandra 的 1998 POMDP 论文,第 5.1 节。本教程中还提供了更多介绍性的演练。

适应性

您问题中的基本直觉是正确的,但可以改进。POMDP 是一类模型,而 Q-learning 是一种求解技术。您问题的基本区别在于基于模型的方法和无模型的方法之间。POMDP 是基于模型的,尽管部分可观察性允许额外的不确定性。强化学习可以通过 Q-learning 在无模型环境中应用。对于非平稳问题,无模型方法将更加灵活。话虽如此,根据问题的复杂性,您可以将非平稳性纳入模型本身并将其视为 MDP。

在对这个问题的回答中,对这些非平稳建模权衡进行了非常彻底的讨论。

最后,POMDP 可以被视为专家系统是正确的。Mazumdar 等人 (2017)建议将马尔可夫决策过程 (MDP) 视为专家系统。

于 2017-11-30T17:46:11.227 回答