1

你好 StackOverflow 社区!

我对强化学习中的无模型预测/控制算法有疑问。在 David Silver 的讲座中,对 MC 和 TD 进行了偏差/方差权衡分析(即 MC 没有偏差和高方差,而 TD(0) 有一些偏差和低方差),但同时比较了环境中的状态有马尔可夫属性。

您能否评论一下偏差和方差会发生什么:
1.当我们在具有不具有马尔可夫属性的状态的环境中使用 MC 时
2.
与 应用于具有马尔可夫属性的状态相比,TD 算法是否相同?

4

0 回答 0