0

我有一个 500*500 的网格,有 7 个不同的惩罚值。我需要制作一个动作空间包含 11 个动作的 RL 代理。(左、右、上、下、4 个对角线方向、加速、减速和正常速度)。我怎么解决这个问题?选择的“执行动作”的概率为 0.8。否则选择随机动作。此外,惩罚值可以动态变化。

4

1 回答 1

0

看看 Sutton Completeideas.net/sutton/book/ebook/node15.html 的这一章,尤其是他在后面部分的实验。您的问题似乎与 N 臂强盗相似,因为每个臂都返回正态分布的奖励。虽然本章主要侧重于探索,但问题仍然存在。

另一种看待它的方式是,如果您的状态真的返回正态分布的惩罚,您将需要充分探索域以获得状态的平均值,动作元组。这些情况下的均值是 Q*,这将为您提供最优策略。

作为后续,如果状态空间太大或连续,可能值得研究使用函数逼近器进行泛化。虽然适用相同的收敛规则,但在某些情况下函数逼近会遇到问题。不过,我想说这超出了本次讨论的范围。

于 2017-05-11T13:45:29.017 回答