1

我在模拟中使用Q-Learning算法。该模拟的迭代次数有限(600 到 700 次)。该模拟的多次运行(100 次运行)激活了学习过程。我是强化学习的新手,我在这里有一个关于如何在这种模拟上使用探索/利用的问题(我正在使用电子贪婪探索)。我正在使用递减探索,我想知道是否应该在整个模拟运行中使用递减探索,或者在每次模拟运行时减少它(每次模拟运行将 epsilon 启动到 0.9,然后减少它)。谢谢

4

1 回答 1

1

您不需要如此高的 epsilon 启动。将 q 值初始化为非常高可能会更好,这样未知的 q 值总是在至少已经探索过一次的 q 值之上被挑选出来。

考虑到您的状态空间,在整个运行或单独运行后减少它并不重要,但单独听起来是一个更好的选择。

你减少它的速度还取决于世界的情况以及智能体的学习速度。我试图让我的 alpha 和 epsilon 与错误相关,但这样做很棘手。

于 2015-03-05T12:29:26.163 回答