reinforcement-learning - Sarsa 用神经网络解决山地车任务

Question

我正在尝试实施 Sutton 书中描述的用于估计 q 的情节半梯度 Sarsa 来解决Mountain Car Task. 为了近似q，我想使用neural network. 因此，我想出了这段代码。但遗憾的是，我的代理人并没有真正学会解决任务。在某些情节中，发现解决方案非常快（100-200 步），但有时代理需要超过 30k 步。我认为，我在实施中犯了一些基本错误，但我自己无法找到它。有人可以帮助我，并指出我的实施中的错误/错误吗？

score 1 · Accepted Answer

我通过改变网络的结构解决了这个问题：我没有使用(state, action)对来预测Q-value它，而是改变了它的方式DQN：我预测value给定状态的所有三种可能动作，然后根据对这个预测。我以前的方法找不到问题，但至少现在可以了。

reinforcement-learning - Sarsa 用神经网络解决山地车任务

1 回答 1

Related

Reference