我读过几篇关于时间差分学习的论文和讲座(其中一些与神经网络有关,例如关于 TD-Gammon 的 Sutton 教程),但我很难理解这些方程,这导致我提出了我的问题。
-预测值V_t从何而来?随后,我们如何得到 V_(t+1)?
- 当 TD 与神经网络一起使用时,究竟是什么反向传播?也就是说,在使用 TD 时,返回传播的错误从何而来?
我读过几篇关于时间差分学习的论文和讲座(其中一些与神经网络有关,例如关于 TD-Gammon 的 Sutton 教程),但我很难理解这些方程,这导致我提出了我的问题。
-预测值V_t从何而来?随后,我们如何得到 V_(t+1)?
- 当 TD 与神经网络一起使用时,究竟是什么反向传播?也就是说,在使用 TD 时,返回传播的错误从何而来?
后向视图和前向视图可能会令人困惑,但是当您处理诸如游戏程序之类的简单事物时,实际上事情实际上非常简单。我没有查看您正在使用的参考资料,所以让我只提供一个总体概述。
假设我有一个像神经网络这样的函数逼近器,它有两个函数,train
用于predict
对特定输出进行训练并预测状态的结果。(或在给定状态下采取行动的结果。)
假设我有玩游戏的痕迹,我使用该predict
方法告诉我在每一点要采取什么行动,并假设我在游戏结束时输了(V=0)。假设我的状态是 s_1、s_2、s_3...s_n。
蒙特卡罗方法说我使用轨迹和最终分数在轨迹中的每个状态上训练我的函数逼近器(例如我的神经网络)。因此,鉴于此跟踪,您将执行类似调用的操作:
train(s_n, 0)
train(s_n-1, 0)
...
train(s_1, 0)
.
也就是说,我要求每个州预测跟踪的最终结果。
动态规划方法说我根据下一个状态的结果进行训练。所以我的训练会是这样的
train(s_n, 0)
train(s_n-1, test(s_n))
...
train(s_1, test(s_2))
.
也就是说,我要求函数逼近器预测下一个状态预测的内容,最后一个状态预测跟踪的最终结果。
TD learning混合了这两种情况,其中λ=1
对应于第一种情况(蒙特卡罗),λ=0
对应于第二种情况(动态规划)。假设我们使用λ=0.5
. 那么我们的训练将是:
train(s_n, 0)
train(s_n-1, 0.5*0 + 0.5*test(s_n))
train(s_n-2, 0.25*0 + 0.25*test(s_n) + 0.5*test(s_n-1)+)
...
现在,我在这里写的内容并不完全正确,因为您实际上并没有在每一步重新测试逼近器。相反,您只需从预测值开始(V = 0
在我们的示例中),然后更新它以使用下一个预测值训练下一步。V = λ·V + (1-λ)·test(s_i)
.
这比蒙特卡罗和动态编程方法学得快得多,因为您没有要求算法学习这样的极端值。(忽略当前预测或忽略最终结果。)