optimization - 强化学习与运筹学

Question

我想知道什么时候会决定使用强化学习来解决以前通过数学优化方法解决的问题——想想旅行推销员问题或工作调度或出租车共享问题。

由于强化学习旨在最小化/最大化某个成本/奖励函数，就像运筹学试图优化某个成本函数的结果一样，我认为可以由两方之一解决的问题可能会得到解决由对方。然而，真的是这样吗？两者之间有权衡吗？关于上述问题，我还没有真正看到太多关于 RL 的研究，但我可能弄错了。

如果有人有任何见解，他们将不胜感激！

score 5 · Accepted Answer

这是我的两分钱。我认为虽然这两种近似都有一个共同的目标（最佳决策），但它们的基本工作原理是不同的。本质上，强化学习是一种数据驱动的方法，其中优化过程是通过代理与环境的交互（即数据）来实现的。另一方面，优化研究使用需要更深入地了解问题和/或施加更多假设的其他方法。

有许多问题，尤其是学术问题或玩具问题，都可以应用近似 RL 和 OR。在现实世界的应用中，我想如果你能满足 OR 要求的所有假设，RL 就不会取得更好的结果。不幸的是，情况并非总是如此，因此 RL 在这种情况下更有用。

但是请注意，有些方法不清楚 RL 和 OR 之间的区别。

score 5 · Accepted Answer

巴勃罗提供了一个很好的解释。我的研究实际上是强化学习与模型预测控制。而MPC是一种基于轨迹优化的控制方法。强化学习只是一种数据驱动的优化算法，可用于您的上述示例。这是一篇使用 RL解决旅行商问题的论文。

最大的区别实际上是这些：

强化学习方法

优化方法

性能取决于型号。如果模型不好，优化会很糟糕。
因为性能是基于模型的，所以识别一个“完美”的模型是非常昂贵的。在能源行业，一个工厂的这种模型需要数百万美元，尤其是因为运行条件会随着时间而变化。
保证最优性。已经发表了许多论文来证明这些方法保证了稳健性、可行性和稳定性。
易于解释。使用优化方法的控制和决策很容易解释，因为您可以进入模型并计算执行特定操作的原因。在 RL 案例中，这通常是一个神经网络，完全是一个黑盒子。因此，对于安全敏感问题，RL 目前很少使用。
非常昂贵的在线计算取决于预测范围，因为在每个时间步，我们必须在给定当前状态的情况下优化轨迹。

2 回答 2