在 GTD(λ) 的每一种形式中,似乎都是根据函数逼近来定义它,使用 θ 和一些权重向量 w。
我知道对梯度方法的广泛需求来自于它们对线性函数逼近器的收敛特性,但我想利用 GTD 进行重要性采样。
是否可以在没有函数逼近的情况下利用 GTD?如果是这样,更新方程是如何形式化的?
在 GTD(λ) 的每一种形式中,似乎都是根据函数逼近来定义它,使用 θ 和一些权重向量 w。
我知道对梯度方法的广泛需求来自于它们对线性函数逼近器的收敛特性,但我想利用 GTD 进行重要性采样。
是否可以在没有函数逼近的情况下利用 GTD?如果是这样,更新方程是如何形式化的?