我正在尝试将 UNO 纸牌游戏建模为 Partially Observable Markov Decision Processes(POMDPs) 。我做了一点研究,得出的结论是,状态将是卡片的数量,动作将是播放或从看不见的卡片组中挑选卡片。我在制定状态转换和观察模型方面面临困难。我认为,该观察模型将取决于过去的行动和观察(历史),但为此我需要放松马尔可夫假设。我想知道放宽马尔可夫假设是不是更好的选择?另外,我应该如何形成状态和观察模型。提前致谢。
问问题
113 次