0

我是 RL 的新手,所以如果我问愚蠢的问题,请原谅我:)

我现在正在做一个 DQN 项目,它与最简单的蛇游戏非常相似。该游戏是用js编写的,并有一个演示(其中蛇随机移动)。但是由于我不会写js,所以在trainng过程中无法将动作值传递给游戏,所以我现在正在做的是生成随机游戏图像并训练dqn模型。

我想问的是:这样可以吗?Q(s,r) 还能收敛吗?如果可以的话,有什么需要注意的吗?我还需要 Episilon 参数吗?

非常感谢:)

4

1 回答 1

0

我肯定会说不!

问题是代理只会从随机决策中学习,如果学习到的动作可能会产生更多的奖励,它永远不会尝试。所以他学到的一切都将基于起始帧。此外,在您的情况下,代理将永远不会学习如何处理他的大小(如果它像蛇一样增长),因为由于错误的随机决策,他永远不会增长。

想象一个试图骑自行车的孩子,当它骑完一米时,你将它从自行车上抬起。它可能可以直行一米甚至更多米,但永远无法转弯等。

于 2021-01-15T19:55:36.317 回答