我一直在研究强化学习,但我不明白的是如何计算 Q 值。如果你使用贝尔曼方程Q(s,a) = r + γ*max(Q(s',a'))
,它不会永远持续下去吗?因为Q(s',a')
将需要进一步的一个时间步长的 Q 值,而这将一直持续下去。结局如何?
user5702166
问问题
311 次
1 回答
1
在强化学习中,您通常会尝试找到一个策略(在特定状态下采取的最佳行动),当策略不再改变或价值函数(代表预期奖励)已经收敛时,学习过程结束。
您似乎使用贝尔曼方程混淆了Q 学习和价值迭代。Q-learning 是一种无模型技术,您可以使用获得的奖励来更新Q:
这里的直接奖励r t+1是在状态s t完成动作a t后获得的奖励。α 是应该在 0 和 1 之间的学习率,如果为 0,则不进行学习,如果为 1,则仅考虑最新的奖励。
其中需要模型P a (s,s'),也定义为P(s'|s,a) ,即使用动作a从状态s到s'的概率。为了检查值函数是否收敛,通常将值函数V t+1与所有状态的 V t进行比较,如果它小于一个小值 (ε),则称该策略是收敛的:
也可以看看:
于 2016-12-04T20:20:42.160 回答