我已经开始玩强化学习(使用 Sutton 的书)。我无法完全理解必须减少马尔可夫状态空间而另一方面又不对重要和不重要的假设之间的悖论。
背景
例如。以跳棋为例,Sutton 表示不应将奖励分配给游戏中的某些动作,例如击败对手的棋子。他声称这可能会优化 AI 以获取棋子而不是赢得比赛。因此,奖励应该只给予您想要达到的结果(例如赢得比赛)。
问题 1
假设一个(德州扑克)扑克 AI 的马尔可夫状态只有玩家的手和桌上的牌。这大约有 52*51*50*49*48*47*46/1*2*3*4*5*6*7 状态。现在假设我们希望 AI 将玩家的资金池 + 他们的赌注考虑在内。如果我们假设 8 个玩家每人拥有 1-200.000 美元,这将使马尔可夫状态空间接近“无限数量的组合”。
问题2
一种减少状态的策略可能是将玩家现金分为穷人、中等人或富人。这严重减少了我们的状态空间,但是,我怎么知道 a) 3 个组就足够了?b) 每组的区别限制是什么?
干杯,