我在模拟中使用Q-Learning算法。该模拟的迭代次数有限(600 到 700 次)。该模拟的多次运行(100 次运行)激活了学习过程。我是强化学习的新手,我在这里有一个关于如何在这种模拟上使用探索/利用的问题(我正在使用电子贪婪探索)。我正在使用递减探索,我想知道是否应该在整个模拟运行中使用递减探索,或者在每次模拟运行时减少它(每次模拟运行将 epsilon 启动到 0.9,然后减少它)。谢谢
问问题
85 次
我在模拟中使用Q-Learning算法。该模拟的迭代次数有限(600 到 700 次)。该模拟的多次运行(100 次运行)激活了学习过程。我是强化学习的新手,我在这里有一个关于如何在这种模拟上使用探索/利用的问题(我正在使用电子贪婪探索)。我正在使用递减探索,我想知道是否应该在整个模拟运行中使用递减探索,或者在每次模拟运行时减少它(每次模拟运行将 epsilon 启动到 0.9,然后减少它)。谢谢