0

我正在尝试实现一个使用 Q-learning 玩Ludo的代理。我使用 e-greedy 动作选择器对其进行了训练,epsilon 为 0.1,学习率为 0.6,折扣因子为 0.8。

我跑了大约 50K 步,但没有赢得一场比赛。这令人费解,因为 Q 表似乎与我想要的非常准确。为什么我会输给随机玩家这么多?如果 Q 表没有发生太大变化,系统是否应该能够获胜,并且通常我需要训练我的代理多少次迭代?

我不确定需要多少信息,如果需要,我会用相关信息更新帖子。

可能的状态,表示为 Q 表中的行:

  1. 在家
  2. 在地球上
  3. 在一颗星星上
  4. 在目标
  5. 在赢家路上
  6. 与同色球员安全
  7. 在自由空间

可能的操作,表示为每个状态的列:

  1. 从家里搬出去
  2. 进入目标
  3. 移动到地球
  4. 移星
  5. 通过星星移动到目标
  6. 使用相同颜色的令牌进入安全状态
  7. 进入赢家之路
  8. 如果对手在地球上,自杀
  9. 杀死对手
  10. 动起来
  11. 不能动

我首先用随机值初始化我的 Q 表,并以在 5000 次迭代后看起来像这样的表结束:

-21.9241  345.35 169.189 462.934 308.445 842.939 256.074  712.23 283.328 137.078   -32.8
398.895   968.8 574.977 488.216 468.481 948.541  904.77 159.578 237.928 29.7712 417.599
1314.25 756.426 333.321  589.25 616.682 583.632  481.84 457.585  683.22 329.132 227.329
1127.58 1457.92 1365.58 1429.26 1482.69 1574.66 1434.77 1195.64 1231.01 1232.07    1068
807.592 1070.17  544.13 1385.63 883.123 1662.97  524.08 966.205 1649.67 509.825 909.006
225.453 1141.34 536.544 242.647 1522.26 1484.47 297.704 993.186 589.984  689.73 1340.89
1295.03 310.461 361.776 399.866 663.152 334.657 497.956  229.94 294.462 311.505 1428.26

我的即时奖励是基于每个令牌在游戏中的距离乘以常数 10,在执行一个动作之后。起始位置的位置为 -1,目标位置的位置为 99。中间的所有位置的位置都在 0 - 55 之间。如果目标中的代币,将在目标中的每个代币的即时奖励中增加额外奖励 +100 .

通常,我的球员总是向球门移动一个标记……就是这样。

4

1 回答 1

1

为什么我会输给随机玩家这么多?如果 Q 表没有太大变化,系统不应该能够获胜吗?

这可能是您的 Q-learning 实施中的错误。您说学习 Q 表中的值与您的期望值接近。如果这些值正在收敛,那么我认为它不太可能是一个错误,更有可能是......

您的代理人正在尽其所能给予国家代表权。

Q 表条目收敛到在给定状态下采取行动的最佳值。为了让这个“最优策略”真正转化为我们所说的好的 Ludo 游戏,智能体学习的状态需要直接对应于棋盘游戏的状态。查看您的状态,您可以在板上看到映射到同一状态的多个棋子排列。例如,如果您允许玩家拥有多个令牌,则状态空间并不代表所有令牌的位置(动作空间也不代表)。这可能是您观察到代理只移动一个令牌然后停止的原因:它看不到它有任何其他动作要采取,因为它认为它已经完成!再举一个例子说明这是一个问题,请注意,代理可能希望根据对手棋子的位置采取不同的行动,因此为了达到最佳效果,代理也需要这些信息。此信息需要包含在您的状态表示中。

您可以开始向 Q 表添加行,但这是您将遇到的问题:Ludo 中有太多可能的状态,无法以表格的方式进行学习(使用 Q 表)。大小将类似于您当前的所有状态,乘以板上所有其他令牌的每个可能位置。

所以要回答这个问题:

一般来说,我必须训练我的代理多少次迭代?

由于状态空间可以准确地表示板的所有布置,因此迭代次数过多而无法实现。您将需要研究状态的定义特征以进行学习。这些特征将突出状态之间的重要差异并丢弃其他特征,因此您可以将其视为压缩代理正在学习的状态空间。然后,您还可以考虑使用函数逼近器而不是 Q 表来处理可能仍然是非常大量的特征。您可以在Reinforcement Learning: An Introduction中阅读更多相关信息,尤其是在3.9左右。

于 2016-05-26T03:26:40.950 回答