我正在尝试训练 DQN 代理来解决 AI Gym 的 Cartpole-v0 环境。我从这个人的实现开始只是为了获得一些实践经验。我注意到的是,在训练过程中,经过多次训练后,智能体找到了解决方案,并且能够在最大时间步长内保持杆直立。然而,经过进一步的训练,该策略看起来变得更加随机,并且它不能再保持杆子直立并且进出一个好的策略。我对此感到很困惑,为什么进一步的培训和经验不能帮助代理?在剧集中,我对随机动作的 epsilon 变得非常低,所以它应该在进行下一个预测时运行。那么,为什么它在某些训练集未能保持杆子直立而在其他训练集成功呢?
这是我在上述链接实现的训练过程中的奖励-情节曲线的图片。