我已经阅读了斯坦福的这一页 - https://web.stanford.edu/group/pdplab/pdphandbook/handbookch10.html。我无法理解 TD 学习是如何在神经网络中使用的。我正在尝试制作一个使用 TD 学习的跳棋 AI,类似于他们在双陆棋中实现的。请解释 TD 反向传播的工作原理。
我已经提到了这个问题 -神经网络和时间差分学习 但我无法理解接受的答案。如果可能,请用不同的方法解释。
我已经阅读了斯坦福的这一页 - https://web.stanford.edu/group/pdplab/pdphandbook/handbookch10.html。我无法理解 TD 学习是如何在神经网络中使用的。我正在尝试制作一个使用 TD 学习的跳棋 AI,类似于他们在双陆棋中实现的。请解释 TD 反向传播的工作原理。
我已经提到了这个问题 -神经网络和时间差分学习 但我无法理解接受的答案。如果可能,请用不同的方法解释。
TD学习不用于神经网络。相反,神经网络用于 TD 学习来存储值(或 q 值)函数。
我认为您将反向传播(神经网络的概念)与 RL 中的引导混淆了。Bootstrapping 使用最近信息和先前估计的组合来生成新的估计。
当状态空间很大并且不容易将值函数存储在表中时,使用神经网络作为近似方案来存储值函数。
关于前向/后向视图的讨论更多的是关于资格跟踪等。RL bootstraps serval 及时领先的情况。但是,这是不切实际的,并且有一些方法(例如资格跟踪)可以留下痕迹并更新过去的状态。
这不应与神经网络中的反向传播相联系或混淆。它与它无关。