3

我正在尝试为奥赛罗建立一个时间差异学习代理。虽然我的其余实现似乎按预期运行,但我想知道用于训练我的网络的损失函数。在 Sutton 的《Reinforcement learning: An Introduction》一书中,Mean Squared Value Error(MSVE)被呈现为标准损失函数。它基本上是 Mean Square Error 乘以 on policy 分布。(Sum over all states s ( onPolicyDistribution(s ) * [V(s) - V'(s,w)]² ) )

我现在的问题是:当我的策略是学习价值函数的电子贪心函数时,我如何在策略分布上获得这个?如果我只使用 MSELoss 代替,它甚至有必要吗?有什么问题?

我在 pytorch 中实现了所有这些,所以在那里轻松实现的奖励积分:)

4

1 回答 1

1

正如你所提到的,在你的情况下,听起来你正在做 Q-learning,所以你不需要像 Sutton 的书中描述的那样做策略梯度。当您学习政策时,这是需要的。你不是在学习一个政策,你是在学习一个价值函数并用它来行动。

于 2018-02-26T08:22:14.077 回答