我正在尝试实施 Sutton 书中描述的用于估计 q 的情节半梯度 Sarsa 来解决Mountain Car Task
. 为了近似q
,我想使用neural network
. 因此,我想出了这段代码。但遗憾的是,我的代理人并没有真正学会解决任务。在某些情节中,发现解决方案非常快(100-200 步),但有时代理需要超过 30k 步。我认为,我在实施中犯了一些基本错误,但我自己无法找到它。有人可以帮助我,并指出我的实施中的错误/错误吗?
问问题
744 次