ε-贪婪策略
我知道 Q-learning 算法应该尝试在探索和利用之间取得平衡之间取得平衡。由于我是该领域的初学者,我想实现一个简单版本的探索/利用行为。
最佳ε值我的实现使用了 ϵ-greedy 策略,但在决定 epsilon 值时我不知所措。epsilon 应该受算法访问给定(状态、动作)对的次数的限制,还是应该受执行的迭代次数的限制?
我的建议:- 每次遇到给定的(状态、动作)对时,降低 epsilon 值。
- 在执行完整的迭代后降低 epsilon 值。
- 每次遇到状态 s 时降低 epsilon 值。
非常感激!