1

在研究强化学习时,确切地说,当涉及到无模型强化学习时,我们通常使用两种方法:

  • TD学习
  • 蒙特卡洛

什么时候使用它们中的每一个?换句话说,我们如何确定哪种方法最适合我们的问题?

4

1 回答 1

2

Sutton & Barto的6.1 和 6.2 节对蒙特卡洛和 TD 学习之间的区别给出了非常好的直观理解。

话虽如此,MC 方法与非情节任务当然存在明显的不兼容性。在这种情况下,您将始终需要某种引导。

于 2019-05-02T02:00:03.850 回答