2

由于我是该领域的新手,我怀疑不同的 epsilon 值将如何影响 SARSA 和 Qlearning 与 epsilon 贪婪算法进行动作选择之间的影响。

我知道当 epsilon 等于 0 时,总是根据从 Q 派生的策略选择动作。因此,Q-learning 首先更新 Q,然后根据更新的 Q 选择下一个动作。另一方面,SARSA 选择下一个动作和更新后 Q。

当 ε 等于 1 时怎么样?ε 是从 0 增加到 1 吗?

谢谢!

4

1 回答 1

2

ε-greedy 策略选择概率为 ε 的随机动作或概率为 1-ε 的最佳已知动作。在 ε=1 时,它总是会选择随机动作。这个值在探索和利用之间进行权衡:你想使用你拥有的知识,但你也想寻找更好的替代品。

于 2015-11-17T04:29:55.080 回答