1

我正在尝试将 UNO 纸牌游戏建模为 Partially Observable Markov Decision Processes(POMDPs) 。我做了一点研究,得出的结论是,状态将是卡片的数量,动作将是播放或从看不见的卡片组中挑选卡片。我在制定状态转换和观察模型方面面临困难。我认为,该观察模型将取决于过去的行动和观察(历史),但为此我需要放松马尔可夫假设。我想知道放宽马尔可夫假设是不是更好的选择?另外,我应该如何形成状态和观察模型。提前致谢。

4

1 回答 1

1

我认为在 POMDP 中,状态仍然应该是“完整的真相”(所有牌的位置),而转换只是游戏规则(包括其他玩家的策略?!)。观察结果当然不应该依赖于任何历史,只依赖于状态,否则你就违反了马尔可夫假设。POMDP 的重点是代理可以通过分析历史来获取有关当前状态的信息。不过,我不确定这是否或如何适用于 UNO。如果您知道已打出哪些牌及其顺序,您还能通过历史记录获得信息吗?可能不是。不确定,但将这款游戏视为 POMDP 可能没有意义,即使您使用的是为 POMDP 设计的解决方案。

于 2019-04-25T06:08:32.427 回答