2

这个 OpenAI环境只为智能体提供位置和速度,因此智能体无法区分开始时的良好状态(直立杆,低速)应该具有高值和靠近附近的良好状态(直立杆,低速) end(第 200 步),令代理感到恐惧和困惑的是,由于环境即将关闭,实际上预期奖励非常低。

我想知道这会对常见的强化算法产生多大的影响。

附言

我已经在我的(非常简单的)DQN 算法中实现了体验重放,看起来,在训练中忽略时间大于 150 的步骤实际上效果更好。但是,算法的性能非常嘈杂,因此我需要对此进行更多实验。

另外,我偶然发现了这个环境,这似乎与问题有关。安全(在“回形针最大化”意义上)人工智能应该对关闭无动于衷。

4

0 回答 0