artificial-intelligence - 如何将 UNO 建模为 POMDP

Question

我正在尝试将 UNO 纸牌游戏建模为 Partially Observable Markov Decision Processes(POMDPs) 。我做了一点研究，得出的结论是，状态将是卡片的数量，动作将是播放或从看不见的卡片组中挑选卡片。我在制定状态转换和观察模型方面面临困难。我认为，该观察模型将取决于过去的行动和观察（历史），但为此我需要放松马尔可夫假设。我想知道放宽马尔可夫假设是不是更好的选择？另外，我应该如何形成状态和观察模型。提前致谢。

score 1 · Accepted Answer

我认为在 POMDP 中，状态仍然应该是“完整的真相”（所有牌的位置），而转换只是游戏规则（包括其他玩家的策略？！）。观察结果当然不应该依赖于任何历史，只依赖于状态，否则你就违反了马尔可夫假设。POMDP 的重点是代理可以通过分析历史来获取有关当前状态的信息。不过，我不确定这是否或如何适用于 UNO。如果您知道已打出哪些牌及其顺序，您还能通过历史记录获得信息吗？可能不是。不确定，但将这款游戏视为 POMDP 可能没有意义，即使您使用的是为 POMDP 设计的解决方案。

artificial-intelligence - 如何将 UNO 建模为 POMDP

1 回答 1

Related

Reference