2

我正在尝试从开放的 AI 健身房解决 LunarLander 连续环境(解决 LunarLanderContinuous-v2 意味着在 100 次连续试验中获得 200 的平均奖励。)从该环境中连续 100 集可能获得最佳平均奖励。困难在于我提到的月球着陆器是不确定的。(解释:现实物理世界中的观察有时是嘈杂的)。具体来说,我在对着陆器位置的 PositionX 和 PositionY 观察中添加了一个均值 = 0 且标准值 = 0.05 的零均值高斯噪声。我还将 LunarLander 动作离散化为有限数量的动作,而不是环境启用的连续范围。

到目前为止,我正在使用 DQN、双 DQN 和决斗 DDQN。

我的超参数是:

  • 伽玛,
  • ε开始
  • ε端
  • ε衰变
  • 学习率
  • 动作数量(离散化)
  • 目标更新
  • 批量大小
  • 优化器
  • 集数
  • 网络架构。

我很难达到好的甚至平庸的结果。有人对我应该为改善结果而进行的超参数更改有什么建议吗?谢谢!

4

0 回答 0