0

我想在 CarRacing-v0 环境中训练我的代理,但我想使用离散空间而不是盒子动作/观察空间,这样我就可以使用 DQN 算法对其进行训练。openai-gym 中有句谚语说:“在这种环境下,离散控制也是合理的,开/关离散化很好。” https://gym.openai.com/envs/CarRacing-v0/

但我不知道如何以代码或务实的方式做到这一点。

4

0 回答 0