algorithm - 如何将强化学习应用于连续动作空间？

Question

我试图让代理学习在强化学习设置中最好地执行某些任务所需的鼠标移动（即奖励信号是学习的唯一反馈）。

我希望使用 Q-learning 技术，但是虽然我找到了一种将这种方法扩展到连续状态空间的方法，但我似乎无法弄清楚如何解决连续动作空间的问题。

我可以强制所有鼠标移动具有一定的幅度并且仅在一定数量的不同方向上，但是任何使动作离散的合理方法都会产生巨大的动作空间。由于标准 Q-learning 要求智能体评估所有可能的动作，因此这种近似在任何实际意义上都不能解决问题。

score 28 · Accepted Answer

处理这个问题的常用方法是使用actor-critic 方法。这些自然延伸到连续的行动空间。使用近似值时基本 Q-learning 可能会出现分歧，但是，如果您仍想使用它，您可以尝试将其与自组织图相结合，如“自组织图在强化学习中的应用”中所做的那样。该论文还包含一些您可能会觉得有用的进一步参考资料。

score 24 · Accepted Answer

快进到今年，来自 DeepMind 的人们提出了一种深度强化学习 actor-critic 方法来处理连续状态和动作空间。它基于一种称为确定性策略梯度的技术。请参阅论文持续控制与深度强化学习和一些实现。

score 15 · Accepted Answer

有许多方法可以将强化学习扩展到连续动作。一种方法是使用actor-critic 方法。另一种方法是使用策略梯度方法。

可以在以下在线论文中找到对不同方法的相当广泛的解释：连续状态和动作空间中的强化学习（Hado van Hasselt 和 Marco A. Wiering）。

score 6 · Accepted Answer

对于您正在做的事情，我认为您不需要在连续的行动空间中工作。尽管物理鼠标在连续空间中移动，但在内部，光标仅以离散的步长移动（通常在像素级别），因此获得高于此阈值的任何精度似乎不会对代理的性能产生任何影响。状态空间仍然很大，但它是有限且离散的。

score 2 · Accepted Answer

我知道这篇文章有些陈旧，但在 2016 年，提出了一种应用于连续动作空间的 Q-learning 变体，作为演员批评方法的替代方案。它被称为归一化优势函数（NAF）。这是论文：Continuous Deep Q-Learning with Model-based Acceleration

score 1 · Accepted Answer

另一篇来自基于价值的学校的论文是Input Convex Neural Networks。这个想法是要求 Q(s,a) 在动作中是凸的（不一定在状态中）。然后，求解 argmax Q 推断被简化为使用凸性找到全局最优值，比穷举扫描快得多，并且比其他基于值的方法更容易实现。然而，与通常的前馈或卷积神经网络相比，可能会以降低表示能力为代价。

algorithm - 如何将强化学习应用于连续动作空间？

6 回答 6

Related

Reference