reinforcement-learning - 在强化学习中实现损失函数 (MSVE)

Question

我正在尝试为奥赛罗建立一个时间差异学习代理。虽然我的其余实现似乎按预期运行，但我想知道用于训练我的网络的损失函数。在 Sutton 的《Reinforcement learning: An Introduction》一书中，Mean Squared Value Error（MSVE）被呈现为标准损失函数。它基本上是 Mean Square Error 乘以 on policy 分布。（Sum over all states s ( onPolicyDistribution(s ) * [V(s) - V'(s,w)]² ) )

我现在的问题是：当我的策略是学习价值函数的电子贪心函数时，我如何在策略分布上获得这个？如果我只使用 MSELoss 代替，它甚至有必要吗？有什么问题？

我在 pytorch 中实现了所有这些，所以在那里轻松实现的奖励积分:)

score 1 · Accepted Answer

正如你所提到的，在你的情况下，听起来你正在做 Q-learning，所以你不需要像 Sutton 的书中描述的那样做策略梯度。当您学习政策时，这是需要的。你不是在学习一个政策，你是在学习一个价值函数并用它来行动。

reinforcement-learning - 在强化学习中实现损失函数 (MSVE)

1 回答 1

Related

Reference