20

ε-贪婪策略

我知道 Q-learning 算法应该尝试在探索利用之间取得平衡之间取得平衡。由于我是该领域的初学者,我想实现一个简单版本的探索/利用行为。

最佳ε值

我的实现使用了 ϵ-greedy 策略,但在决定 epsilon 值时我不知所措。epsilon 应该受算法访问给定(状态、动作)对的次数的限制,还是应该受执行的迭代次数的限制?

我的建议:
  1. 每次遇到给定的(状态、动作)对时,降低 epsilon 值。
  2. 在执行完整的迭代后降低 epsilon 值。
  3. 每次遇到状态 s 时降低 epsilon 值。

非常感激!

4

2 回答 2

25

尽管在许多简单的情况下,εk 保持在 0 和 1 范围内的固定数字,但您应该知道:通常,探索会随着时间的推移而减少,因此渐近使用的策略变得贪婪,因此(如 Qk → Q∗)最优. 这可以通过随着 k 的增长使 εk 接近 0 来实现。例如,形式为 εk = 1/k 的 ε -greedy 探索计划随着 k → ∞ 减小到 0,同时仍满足 Q-learning 的第二个收敛条件,即同时允许对所有状态-动作进行无限次访问对(Singh 等人,2000 年)。

我通常做的事情是:设置初始 alpha = 1/k(考虑初始 k = 1 或 2),然后随着 k 的增加,alpha 会减少。它还保证了收敛。

于 2014-04-07T21:05:48.997 回答
-1

将 ε 简单地设置为一个正常数通常是明智的,除非您有充分的理由不这样做。

于 2014-04-02T09:37:01.187 回答