1

我想在 Q-learning 中实现 ϵ-greedy policy action-selection policy。在这里,许多人使用以下方程来降低探索率,

ɛ = e^(-En)

n = 代理人的年龄

E = 开发参数

但我不清楚这个“n”是什么意思?是对特定状态-动作对的访问次数还是迭代次数?

非常感谢

4

1 回答 1

2

您的问题有几个有效的答案。从理论的角度来看,为了实现收敛,Q-learning 要求所有状态-动作对都(渐近地)被无限频繁地访问。

前面的条件可以通过多种方式实现。在我看来,更常见的是n简单地解释为时间步数,即代理与环境执行了多少次交互[例如,Busonu,2010,第 2 章]。

然而,在某些情况下,每个状态的探索速率可能不同,因此n 是代理访问状态的次数s[例如,Powell,2011,第 12 章]。

两种解释同样有效,并确保(连同其他条件)Q 学习的渐近收敛。何时更好地使用某种方法取决于您的特定问题,类似于E您应该使用的确切值。

于 2017-02-20T09:23:06.090 回答