3

我有一些问题要弄清楚为什么你需要从书中的 λ-return 算法的在线版本中重新审视每个地平线上的情节中的所有时间步骤:
Reinforcement Learning: An Introduction, 2nd Edition, Chapter 12, Sutton & Barto

视野逐步扩展

这里所有的权重向量序列 W1, W2,..., Wh 对于每个地平线 h 都从 W0 开始(上一集结束时的权重)。然而,它们似乎并不依赖于前一阶段的回报/权重,并且可以独立计算。在我看来,这只是为了澄清起见,您只能在剧集结束时计算最终水平 h=T 的值。这将与算法的离线版本所做的相同,实际的更新规则是:

一般权重向量更新公式

毫不奇怪,我在 19-states Random Walk 示例中得到了两种算法完全相同的结果:

线上 VS 线下图表

书中提到,在线版本的性能应该稍好一些,在这种情况下,它应该具有与 True Online TD(λ) 相同的结果。在实施后者时,它确实优于离线版本,但我无法弄清楚简单而缓慢的在线版本。

任何建议将不胜感激。

谢谢

4

1 回答 1

3

在我看来,这只是为了澄清起见,您只能在剧集结束时计算最终水平 h=T 的值。

这不是真的。在线 λ-return 算法的全部意义在于它是在线的:它在剧集中进行更新。这在控制设置中至关重要,因为选择的操作由当前值估计确定。即使在预测设置中,为早期视野所做的权重更新也会产生影响。

这是因为来自最后一个范围的最终权重向量总是用于计算更新目标,截断的 lambda 返回。所以 w_1^1 用于计算 h=2 的所有目标,而 w_2^2 用于计算 h=3 的所有目标。因为目标是使用最新的权重向量计算的,所以它们通常更准确。

即使在预测设置中,在线 lambda 返回算法也优于离线版本,因为它使用的目标更好。

于 2019-03-07T10:56:11.710 回答