2

我正在尝试实施 Sutton 书中描述的用于估计 q 的情节半梯度 Sarsa 来解决Mountain Car Task. 为了近似q,我想使用neural network. 因此,我想出了这段代码。但遗憾的是,我的代理人并没有真正学会解决任务。在某些情节中,发现解决方案非常快(100-200 步),但有时代理需要超过 30k 步。我认为,我在实施中犯了一些基本错误,但我自己无法找到它。有人可以帮助我,并指出我的实施中的错误/错误吗?

4

1 回答 1

1

我通过改变网络的结构解决了这个问题:我没有使用(state, action)对来预测Q-value它,而是改变了它的方式DQN:我预测value给定状态的所有三种可能动作,然后根据对这个预测。我以前的方法找不到问题,但至少现在可以了。

于 2017-09-17T20:48:52.497 回答