在研究强化学习时,确切地说,当涉及到无模型强化学习时,我们通常使用两种方法:
- TD学习
- 蒙特卡洛
什么时候使用它们中的每一个?换句话说,我们如何确定哪种方法最适合我们的问题?
在研究强化学习时,确切地说,当涉及到无模型强化学习时,我们通常使用两种方法:
什么时候使用它们中的每一个?换句话说,我们如何确定哪种方法最适合我们的问题?
Sutton & Barto的6.1 和 6.2 节对蒙特卡洛和 TD 学习之间的区别给出了非常好的直观理解。
话虽如此,MC 方法与非情节任务当然存在明显的不兼容性。在这种情况下,您将始终需要某种引导。