machine-learning - 不同 epsilon 值对 Q-learning 和 SARSA 的影响

Question

由于我是该领域的新手，我怀疑不同的 epsilon 值将如何影响 SARSA 和 Qlearning 与 epsilon 贪婪算法进行动作选择之间的影响。

我知道当 epsilon 等于 0 时，总是根据从 Q 派生的策略选择动作。因此，Q-learning 首先更新 Q，然后根据更新的 Q 选择下一个动作。另一方面，SARSA 选择下一个动作和更新后 Q。

当 ε 等于 1 时怎么样？ε 是从 0 增加到 1 吗？

谢谢！

score 2 · Accepted Answer

ε-greedy 策略选择概率为 ε 的随机动作或概率为 1-ε 的最佳已知动作。在 ε=1 时，它总是会选择随机动作。这个值在探索和利用之间进行权衡：你想使用你拥有的知识，但你也想寻找更好的替代品。

1 回答 1