我是强化学习的新手。最近,我一直在尝试训练一个 Deep Q 网络来解决 OpenAI 健身房的 CartPole-v0 问题,其中解决意味着在 100 个连续剧集中达到至少 195.0 的平均分数。
我正在使用 2 层神经网络,使用包含 100 万次体验的内存进行体验重放、epsilon 贪婪策略、RMSProp 优化器和 Huber 损失函数。
使用此设置,解决任务需要数千集 (> 30k)。学习有时也很不稳定。那么,Deep Q 网络在学习这样的任务时出现波动并花这么长时间学习这样的任务是正常的吗?还有哪些其他替代方案(或对我的 DQN 的改进)可以提供更好的结果?