我正在尝试基于Sutton & Barto's Book实现线性梯度下降 Sarsa ,请参见下图中的算法。
但是,我很难理解算法中的某些内容:
- w 和 z 的维度是否与可以采取多少不同的动作无关?在书中似乎它们的维度等于特征的数量,我想说这与有多少动作无关。
- 每个动作都有 aw 和 az 吗?另外,我在书中看不到应该是这种情况。
- 如果我在上面的两个项目符号中是正确的,那么我看不到索引列表 F_a 将如何依赖于动作,因此我看不到动作值函数 q_a 如何依赖于动作(请参阅下面标有黄色的行在算法中)但是动作值必须取决于动作。所以有些东西我没有得到......
我希望任何人都可以帮助我澄清这一点:)