machine-learning - 时间差异学习和反向传播

Question

我已经阅读了斯坦福的这一页 - https://web.stanford.edu/group/pdplab/pdphandbook/handbookch10.html。我无法理解 TD 学习是如何在神经网络中使用的。我正在尝试制作一个使用 TD 学习的跳棋 AI，类似于他们在双陆棋中实现的。请解释 TD 反向传播的工作原理。

我已经提到了这个问题 -神经网络和时间差分学习但我无法理解接受的答案。如果可能，请用不同的方法解释。

score 4 · Accepted Answer

TD学习不用于神经网络。相反，神经网络用于 TD 学习来存储值（或 q 值）函数。

我认为您将反向传播（神经网络的概念）与 RL 中的引导混淆了。Bootstrapping 使用最近信息和先前估计的组合来生成新的估计。

当状态空间很大并且不容易将值函数存储在表中时，使用神经网络作为近似方案来存储值函数。

关于前向/后向视图的讨论更多的是关于资格跟踪等。RL bootstraps serval 及时领先的情况。但是，这是不切实际的，并且有一些方法（例如资格跟踪）可以留下痕迹并更新过去的状态。

这不应与神经网络中的反向传播相联系或混淆。它与它无关。

machine-learning - 时间差异学习和反向传播

1 回答 1

Related

Reference