我正在学习Reinforcement Learning
,我在理解 SARSA、Q-Learning、预期 SARSA、双 Q 学习和时间差异之间的区别时遇到了问题。你能解释一下区别并告诉我什么时候使用它们吗?而对e-greedy和greedy move有什么影响呢?
沙萨:
我处于状态St
,在策略的帮助下选择了一个动作,因此它将我移动到另一个状态St+1
根据状态中的策略,St+1
一个动作被执行,因此我Reward
的 inSt
将由于预期Reward
的前瞻性状态而被更新St+1
。
Q(S, A) ← Q(S, A) + α[ R + γQ(S , A ) − Q(S, A)]
Q-学习:
我在状态St
,在政策的帮助下选择了一个动作,所以它让我进入状态St+1
,这一次它不会依赖于政策,而是它将观察状态中预期Reward
(贪婪Reward
)的最大值St+1
并通过它状态奖励St
将被更新。
Q(S, A) ← Q(S, A) + α [R + γ max Q(S , a) − Q(S, A)]
预计 SARSA:
这将与 Q-learning 相同,而不是Reward
在贪婪的移动的帮助下更新我的St+1
我接受所有行动的预期回报:
Q(St , At) ← Q(St , At) + α[Rt+1 + γE[Q(St+1, At+1)|St+1] − Q(St , At)]
时间差异:
当前Reward
将使用观察到的奖励Rt+1
和估计值V(St+1)
At更新timepoint t + 1
:
V (St) ← V (St) + α[Rt+1 + γV (St+1) − V (St)]
我得到的是真的还是我错过了什么?那么双Q学习呢?
以 0.5 的概率:
Q1(S, A) ← Q1(S, A) + α R + γQ2 S , argmaxa Q1(S , a) − Q1(S, A)
别的:
Q2(S, A) ← Q2(S, A) + α R + γQ1 S , argmaxa Q2(S , a) − Q2(S, A)
有人可以解释一下吗!!