machine-learning - 最优 epsilon (ϵ-greedy) 值

Question

ε-贪婪策略

我知道 Q-learning 算法应该尝试在探索和利用之间取得平衡之间取得平衡。由于我是该领域的初学者，我想实现一个简单版本的探索/利用行为。

最佳ε值

我的实现使用了 ϵ-greedy 策略，但在决定 epsilon 值时我不知所措。epsilon 应该受算法访问给定（状态、动作）对的次数的限制，还是应该受执行的迭代次数的限制？

我的建议：

每次遇到给定的（状态、动作）对时，降低 epsilon 值。
在执行完整的迭代后降低 epsilon 值。
每次遇到状态 s 时降低 epsilon 值。

非常感激！

score 25 · Accepted Answer

尽管在许多简单的情况下，εk 保持在 0 和 1 范围内的固定数字，但您应该知道：通常，探索会随着时间的推移而减少，因此渐近使用的策略变得贪婪，因此（如 Qk → Q∗）最优. 这可以通过随着 k 的增长使 εk 接近 0 来实现。例如，形式为 εk = 1/k 的 ε -greedy 探索计划随着 k → ∞ 减小到 0，同时仍满足 Q-learning 的第二个收敛条件，即同时允许对所有状态-动作进行无限次访问对（Singh 等人，2000 年）。

我通常做的事情是：设置初始 alpha = 1/k（考虑初始 k = 1 或 2），然后随着 k 的增加，alpha 会减少。它还保证了收敛。

score -1 · Accepted Answer

将 ε 简单地设置为一个正常数通常是明智的，除非您有充分的理由不这样做。

machine-learning - 最优 epsilon (ϵ-greedy) 值

ε-贪婪策略

2 回答 2

Related

Reference