0

我在 Java 中从头开始实现 DQN,一切都是定制的。我做了它来玩蛇,结果非常好。但我有一个问题。

为了使网络尽可能稳定,我正在使用replay memoryand also target network. 网络融合得非常好。但过了一段时间它就坏了。

这是一个图表(X - 玩过的游戏,Y - 平均得分)

在此处输入图像描述

target在我用网络更新网络后,这种“中断”通常发生在几场比赛中policy

我用于 DQN 的设置:

 discount factor: 0.9
 learning rate: 0.001
 steps to update target network: 300 000 (means every 300k steps i update target network with policy)
 replay memory size: 300 000
 replay memory batch size: 256 (every step i take 256 samples from replay memory and train network)

有什么想法可能是错的吗?感谢您的回答。

4

1 回答 1

0

查找“灾难性遗忘”

尝试调整您的回放内存大小和更新目标网络的步骤数。

于 2021-03-11T18:40:08.537 回答