machine-learning - 没有函数逼近的梯度时间差 Lambda

Question

在 GTD(λ) 的每一种形式中，似乎都是根据函数逼近来定义它，使用 θ 和一些权重向量 w。

我知道对梯度方法的广泛需求来自于它们对线性函数逼近器的收敛特性，但我想利用 GTD 进行重要性采样。

是否可以在没有函数逼近的情况下利用 GTD？如果是这样，更新方程是如何形式化的？

score 2 · Accepted Answer

我知道当您说“没有函数逼近”时，您的意思是将值函数 V 表示为表格。在这种情况下，V 的表格表示也可以看作是一个函数逼近器。

例如，如果我们将近似值函数定义为：

然后，使用表格表示，有与状态一样多的特征，并且给定状态 s 的特征向量对于除 s 之外的所有状态都为零（它等于 1），并且参数向量 theta 存储每个状态的值. 因此，GTD 以及其他算法可以在不进行任何修改的情况下以表格方式使用。

1 回答 1