machine-learning - 具有神经网络近似 Q 函数的奖励函数

Question

在 Q-learning 中，如果我的 Q-function 由普通的前馈神经网络近似，我应该如何表示我的 Reward 函数？

我是否应该将其表示为“接近”、“非常接近”目标等离散值。我所关心的是，只要我已经转移到 Q 函数的神经网络近似Q(s, a, θ)并且不使用不再是查找表，我还需要建立一个奖励表吗？

score 1 · Accepted Answer

没有“奖励表”之类的东西，您应该定义“奖励信号”，它是在给定时间戳的给定代理世界状态中产生的。这个奖励应该是一个标量（数字）。一般来说，您可以考虑更复杂的奖励，但在 Q-learning 的典型设置中，奖励只是一个数字，因为算法的目标是找到一个策略，使其最大化预期的总折扣奖励。显然，您需要一个可以相加、相乘和最终比较的对象，并且有效地此类对象只是数字（或可以直接转换为数字）。好的，话虽如此，对于您的特定情况，如果您知道到目标的距离，您可以给予与距离成反比的奖励，它可以是偶数-distance，1/distance（因为这将保证更好的缩放）。

machine-learning - 具有神经网络近似 Q 函数的奖励函数

1 回答 1

Related

Reference