1

当使用径向基函数 (RBF) 来逼近具有连续状态变量的值函数时,我不明白资格跟踪如何与强化学习相适应。特别是,您如何确定对于给定状态哪些功能是“活跃的”?

当使用瓦片编码或粗编码时,每个瓦片(不是每个瓦片)本质上是一个特征,因此当状态通过每个瓦片时,每个瓦片的合格迹线都会增加(如何取决于您是使用替换还是累积迹线)瓦片,并且某些瓦片不会增加其跟踪。然而,当使用径向基函数时,特征是状态与所选内核评估的 Rbf 网络中心之间的距离。这些可以针对状态的任何位置和中心的任何位置进行评估,因此对于给定状态激活了哪些特征并不清楚(它们基本上都可以或多或少地被激活),所以目前尚不清楚哪些特征应该增加它们的痕迹。

应该如何调整 RBF 在模拟的每个时间步生成的特征的合格迹线?

我是否需要假设 RBF 的内核被截断?

4

0 回答 0