machine-learning - ε-贪婪策略，探索率降低

Question

我想在 Q-learning 中实现 ϵ-greedy policy action-selection policy。在这里，许多人使用以下方程来降低探索率，

ɛ = e^(-En)

n = 代理人的年龄

E = 开发参数

但我不清楚这个“n”是什么意思？是对特定状态-动作对的访问次数还是迭代次数？

非常感谢

score 2 · Accepted Answer

您的问题有几个有效的答案。从理论的角度来看，为了实现收敛，Q-learning 要求所有状态-动作对都（渐近地）被无限频繁地访问。

前面的条件可以通过多种方式实现。在我看来，更常见的是n简单地解释为时间步数，即代理与环境执行了多少次交互[例如，Busonu，2010，第 2 章]。

然而，在某些情况下，每个状态的探索速率可能不同，因此n 是代理访问状态的次数s[例如，Powell，2011，第 12 章]。

两种解释同样有效，并确保（连同其他条件）Q 学习的渐近收敛。何时更好地使用某种方法取决于您的特定问题，类似于E您应该使用的确切值。

1 回答 1