我想在 Q-learning 中实现 ϵ-greedy policy action-selection policy。在这里,许多人使用以下方程来降低探索率,
ɛ = e^(-En)
n = 代理人的年龄
E = 开发参数
但我不清楚这个“n”是什么意思?是对特定状态-动作对的访问次数还是迭代次数?
非常感谢
我想在 Q-learning 中实现 ϵ-greedy policy action-selection policy。在这里,许多人使用以下方程来降低探索率,
ɛ = e^(-En)
n = 代理人的年龄
E = 开发参数
但我不清楚这个“n”是什么意思?是对特定状态-动作对的访问次数还是迭代次数?
非常感谢
您的问题有几个有效的答案。从理论的角度来看,为了实现收敛,Q-learning 要求所有状态-动作对都(渐近地)被无限频繁地访问。
前面的条件可以通过多种方式实现。在我看来,更常见的是n
简单地解释为时间步数,即代理与环境执行了多少次交互[例如,Busonu,2010,第 2 章]。
然而,在某些情况下,每个状态的探索速率可能不同,因此n
是代理访问状态的次数s
[例如,Powell,2011,第 12 章]。
两种解释同样有效,并确保(连同其他条件)Q 学习的渐近收敛。何时更好地使用某种方法取决于您的特定问题,类似于E
您应该使用的确切值。