3

我目前正在尝试使用 Q-learning 实现一个 AI 玩家来对抗 2 个不同的随机玩家。

我不确定 Q-learning 是否适用于 Ludo 游戏,所以我对此有点怀疑。

我为游戏定义了 11 个状态。每个状态都是根据其他玩家的位置来定义的。

我可能的行动是 6,(受骰子限制)。

从理论上讲,我可以有四种不同的状态(每个 Ludo 令牌一个)可以执行骰子选择的动作,但我只会选择移动具有最高 Q(s,a) 的令牌并执行动作..

我不明白的是,在更新阶段会发生什么。

我知道我用新值更新了以前的值?...

基于 wiki 的更新如下:

在此处输入图像描述

我不明白的是奖励值与旧值有何不同?它是如何定义的,矩阵中的这些值有什么不同?

4

1 回答 1

0

奖励是做出某个动作的奖励,旧的 q 值是 q 表中被选为动作的值,在给定状态下最有吸引力。此处的奖励将更新该条目,以便算法将来知道该举动是否有益或使结果更糟。

于 2017-02-21T02:23:10.910 回答