0

我正忙于为游戏吃豆人编写强化学习代理程序,偶然发现了伯克利的 CS 课程的吃豆人项目,特别是强化学习部分

对于近似 Q 学习代理,使用特征近似。此代码中实现了一个简单的提取器。我很好奇的是,为什么在返回特征之前,它们会按比例缩小 10?通过运行没有因子 10 的解决方案,您会注意到吃豆人的表现明显更差,但为什么呢?

4

1 回答 1

0

在运行多次测试后,事实证明最佳​​ Q 值可能会大相径庭。事实上,这些特征都可能变成负面的,即使是通常会让 PacMan 吃药的特征。所以他只是站在那里,最终试图逃离鬼魂,但从未尝试完成一个关卡。

我推测当他在训练中失败时会发生这种情况,负奖励通过系统传播,并且由于潜在的幽灵数量可能大于一个,这对权重有很大影响,导致一切都变得非常消极,并且系统无法从中“恢复”。

我通过调整特征提取器以仅缩放#-of-ghosts-one-step-away特征来确认这一点,然后 PacMan 设法获得更好的结果

回想起来,这个问题现在更加数学化,可能更适合另一个 stackexchange。

于 2013-05-08T19:27:15.740 回答