7

我想知道什么时候会决定使用强化学习来解决以前通过数学优化方法解决的问题——想想旅行推销员问题或工作调度或出租车共享问题。

由于强化学习旨在最小化/最大化某个成本/奖励函数,就像运筹学试图优化某个成本函数的结果一样,我认为可以由两方之一解决的问题可能会得到解决由对方。然而,真的是这样吗?两者之间有权衡吗?关于上述问题,我还没有真正看到太多关于 RL 的研究,但我可能弄错了。

如果有人有任何见解,他们将不胜感激!

4

2 回答 2

5

这是我的两分钱。我认为虽然这两种近似都有一个共同的目标(最佳决策),但它们的基本工作原理是不同的。本质上,强化学习是一种数据驱动的方法,其中优化过程是通过代理与环境的交互(即数据)来实现的。另一方面,优化研究使用需要更深入地了解问题和/或施加更多假设的其他方法。

有许多问题,尤其是学术问题或玩具问题,都可以应用近似 RL 和 OR。在现实世界的应用中,我想如果你能满足 OR 要求的所有假设,RL 就不会取得更好的结果。不幸的是,情况并非总是如此,因此 RL 在这种情况下更有用。

但是请注意,有些方法不清楚 RL 和 OR 之间的区别。

于 2018-08-12T07:06:22.820 回答
5

巴勃罗提供了一个很好的解释。我的研究实际上是强化学习与模型预测控制。而MPC是一种基于轨迹优化的控制方法。强化学习只是一种数据驱动的优化算法,可用于您的上述示例。这是一篇使用 RL解决旅行商问题的论文。

最大的区别实际上是这些:

强化学习方法

  • 不需要模型,而是一个“游乐场”,可以在环境中尝试不同的动作并从中学习(即数据驱动方法)
  • 由于状态到动作的非线性映射,不能保证复杂问题的最优性。在多输入多输出问题中,RL 使用非线性函数逼近器来解决任务。但是在使用它们的那一刻并不能保证收敛
  • 非常适合难以或不可能导出模型的问题。
  • 极难训练,但便宜的在线计算
  • 与生俱来的适应性。如果环境条件发生变化,RL 通常可以通过学习新环境来适应。
  • 最糟糕的是,RL 做出的决定是无法解释的。先进的 RL 算法由多个神经网络组成,因此,如果我们的 RL 汽车司机从悬崖上驶下,几乎不可能确定它为什么会这样做。

优化方法

  • 性能取决于型号。如果模型不好,优化会很糟糕。

  • 因为性能是基于模型的,所以识别一个“完美”的模型是非常昂贵的。在能源行业,一个工厂的这种模型需要数百万美元,尤其是因为运行条件会随着时间而变化。

  • 保证最优性。已经发表了许多论文来证明这些方法保证了稳健性、可行性和稳定性。

  • 易于解释。使用优化方法的控制和决策很容易解释,因为您可以进入模型并计算执行特定操作的原因。在 RL 案例中,这通常是一个神经网络,完全是一个黑盒子。因此,对于安全敏感问题,RL 目前很少使用。

  • 非常昂贵的在线计算取决于预测范围,因为在每个时间步,我们必须在给定当前状态的情况下优化轨迹。

于 2018-08-15T19:47:01.237 回答