0

当我训练我的模型时,我有以下部分:

s_t_batch, a_batch, y_batch = train_data(minibatch, model2)
# perform gradient step
loss.append(model.train_on_batch([s_t_batch, a_batch], y_batch))

其中s_t, a_分别对应于当前状态和在这些状态下采取的行动。model2model除了model2具有输出num_actionsmodel仅输出在该状态下采取的操作的值外相同。

我觉得奇怪(并且确实是这个问题的重点)在于train_data我有以下行的功能:

y_batch = r_batch + GAMMA * np.max(model.predict(s_t_batch), axis=1)

奇怪的是,我正在使用该模型来生成我的模型y_batch并对其进行训练。这不是成为某种自我实现的预言吗?如果我理解正确,该模型会尝试预测预期的最大奖励。使用相同的模型来尝试生成y_batch意味着它是真正的模型不是吗?

问题是,1. 使用相同模型生成 y_batch 和训练它们背后的直觉是什么。2.(可选)损失值是否意味着什么。当我绘制它时,它似乎并没有收敛,但是奖励的总和似乎在增加(参见下面链接中的图)。

完整的代码可以在这里找到,它是深度 Q 学习在 CartPole-v0 问题上的实现:

其他论坛的评论:

  1. y = r + gamma*np.max(model.predict(s_t_batch), axis=1) 是完全自然的,y 将收敛到真实的状态动作值。如果你不打破连续更新与经验回放(或更好的优先级经验回放)之类的东西之间的相关性,你的模型就会出现分歧。还有更好的变体,比如 DDQN,Dueling Network,性能更好。
  2. y_batch 包括奖励。目标网络和在线网络都是估计值。由于 DQN 的价值函数过于乐观,这确实是一个有点自我实现的预言。这就是几个月后添加双 DQN 的原因。
  3. y 会收敛,但不一定会收敛到真实的(我假设你的意思是最优的)状态动作值。没有人证明收敛值是最佳值,但它是我们拥有的最佳近似值。然而,对于足够简单的问题(例如网格世界),将收敛到真实值
4

1 回答 1

4

模型根据自己的预测进行训练这一事实是 Q-learning 的重点:这是一个称为引导的概念,这意味着重用您的经验。这背后的见解是:

  • 代理用一些权重初始化
  • 这些权重代表智能体试图逼近的 Q 值函数的当前表示
  • 然后它作用于环境,执行它认为具有最高 Q 值的动作(具有一些探索的随机性)
  • 然后它会收到来自环境的一些反馈:一个奖励,以及它所处的新状态
  • 通过比较 Agent 的状态 Q 值近似值t(= [s_t_batch, a_batch]) 和它的 (折扣) 状态近似值t+1 加上奖励 (= y_batch) 之间的差异,它能够衡量它的预测的错误Qt程度。
  • 与任何其他基于梯度的优化一样,从这种错误度量(称为 TD-Error)开始,权重在 MSE 较低的方向上更新。
  • (人们可以等待不止一步,从环境中获得更多信息,以更好的方向更新权重。实际上,可以等待整个情节结束并在此基础上进行训练。立即训练和等待最后称为 TD(Lambda),你应该研究一下)

您的损失正是这个意思:对于一批,它是您的模型t从其唯一的 Q 值近似值对时间的预测t与其对下一个状态的 Q 值近似值的时间预测之间的均方误差,并考虑到一些来自环境的“基本事实”,这是对这个时间步长的奖励

在我看来,你的损失确实下降了,但它非常不稳定,这是 vanilla Q-Learning 尤其是 vanilla Deep Q-Learning 的一个已知问题。查看下面的概述文件,了解更复杂的算法是如何工作的

我建议您研究Temporal Difference Learning。好的资源也是

于 2017-10-17T09:50:12.563 回答