由于我是该领域的新手,我怀疑不同的 epsilon 值将如何影响 SARSA 和 Qlearning 与 epsilon 贪婪算法进行动作选择之间的影响。
我知道当 epsilon 等于 0 时,总是根据从 Q 派生的策略选择动作。因此,Q-learning 首先更新 Q,然后根据更新的 Q 选择下一个动作。另一方面,SARSA 选择下一个动作和更新后 Q。
当 ε 等于 1 时怎么样?ε 是从 0 增加到 1 吗?
谢谢!
由于我是该领域的新手,我怀疑不同的 epsilon 值将如何影响 SARSA 和 Qlearning 与 epsilon 贪婪算法进行动作选择之间的影响。
我知道当 epsilon 等于 0 时,总是根据从 Q 派生的策略选择动作。因此,Q-learning 首先更新 Q,然后根据更新的 Q 选择下一个动作。另一方面,SARSA 选择下一个动作和更新后 Q。
当 ε 等于 1 时怎么样?ε 是从 0 增加到 1 吗?
谢谢!