我在大学学习一门名为“智能机器”的课程。我们被介绍了 3 种强化学习的方法,并且通过这些方法,我们得到了何时使用它们的直觉,我引用:
- Q-Learning - 当 MDP 无法解决时最好。
- 时间差异学习——当 MDP 已知或可以学习但无法解决时最好。
- 基于模型 - 最好在无法学习 MDP 时使用。
有没有很好的例子来解释何时选择一种方法而不是另一种方法?
我在大学学习一门名为“智能机器”的课程。我们被介绍了 3 种强化学习的方法,并且通过这些方法,我们得到了何时使用它们的直觉,我引用:
有没有很好的例子来解释何时选择一种方法而不是另一种方法?
时间差是一种学习如何预测取决于给定信号未来值的量的方法。它可用于学习 V 函数和 Q 函数,而Q 学习是用于学习 Q 函数的特定 TD 算法。正如 Don Reba 所说,您需要 Q 函数来执行操作(例如,遵循 epsilon-greedy 策略)。如果您只有 V 函数,您仍然可以通过迭代所有可能的下一个状态并选择将您引导到具有最高 V 值状态的操作来导出 Q 函数。对于示例和更多见解,我推荐Sutton 和 Barto 的经典书籍。
在无模型RL 中,您无需学习状态转换函数(模型),您只能依赖样本。但是,您可能也有兴趣学习它,例如因为您无法收集很多样本并想要生成一些虚拟样本。在这种情况下,我们讨论基于模型的RL。基于模型的 RL 在机器人技术中非常常见,您无法执行许多真实模拟,否则机器人会崩溃。这是一个很好的调查,有很多例子(但它只讨论了策略搜索算法)。另一个例子看看这篇论文. 在这里,作者与策略一起学习了一个高斯过程来近似机器人的前向模型,以模拟轨迹并减少真实机器人交互的数量。