我正在尝试从开放的 AI 健身房解决 LunarLander 连续环境(解决 LunarLanderContinuous-v2 意味着在 100 次连续试验中获得 200 的平均奖励。)从该环境中连续 100 集可能获得最佳平均奖励。困难在于我提到的月球着陆器是不确定的。(解释:现实物理世界中的观察有时是嘈杂的)。具体来说,我在对着陆器位置的 PositionX 和 PositionY 观察中添加了一个均值 = 0 且标准值 = 0.05 的零均值高斯噪声。我还将 LunarLander 动作离散化为有限数量的动作,而不是环境启用的连续范围。
到目前为止,我正在使用 DQN、双 DQN 和决斗 DDQN。
我的超参数是:
- 伽玛,
- ε开始
- ε端
- ε衰变
- 学习率
- 动作数量(离散化)
- 目标更新
- 批量大小
- 优化器
- 集数
- 网络架构。
我很难达到好的甚至平庸的结果。有人对我应该为改善结果而进行的超参数更改有什么建议吗?谢谢!