2

我正在学习Reinforcement Learning,我在理解 SARSA、Q-Learning、预期 SARSA、双 Q 学习和时间差异之间的区别时遇到了问题。你能解释一下区别并告诉我什么时候使用它们吗?而对e-greedy和greedy move有什么影响呢?

沙萨:

我处于状态St,在策略的帮助下选择了一个动作,因此它将我移动到另一个状态St+1根据状态中的策略,St+1一个动作被执行,因此我Reward的 inSt将由于预期Reward的前瞻性状态而被更新St+1

Q(S, A) ← Q(S, A) + α[ R + γQ(S , A ) − Q(S, A)]

Q-学习:

我在状态St,在政策的帮助下选择了一个动作,所以它让我进入状态St+1,这一次它不会依赖于政策,而是它将观察状态中预期Reward(贪婪Reward)的最大值St+1并通过它状态奖励St将被更新。

Q(S, A) ← Q(S, A) + α [R + γ max Q(S , a) − Q(S, A)]

预计 SARSA:

这将与 Q-learning 相同,而不是Reward在贪婪的移动的帮助下更新我的St+1我接受所有行动的预期回报:

Q(St , At) ← Q(St , At) + α[Rt+1 + γE[Q(St+1, At+1)|St+1] − Q(St , At)]

时间差异:

当前Reward将使用观察到的奖励Rt+1和估计值V(St+1)At更新timepoint t + 1

V (St) ← V (St) + α[Rt+1 + γV (St+1) − V (St)]

我得到的是真的还是我错过了什么?那么双Q学习呢?

以 0.5 的概率:

Q1(S, A) ← Q1(S, A) + α R + γQ2 S , argmaxa Q1(S , a)  − Q1(S, A)  

别的:

Q2(S, A) ← Q2(S, A) + α R + γQ1 S , argmaxa Q2(S , a)  − Q2(S, A)  

有人可以解释一下吗!!

4

0 回答 0