在Q-learning期间更新 R(s) 函数的适当方法是什么?例如,假设一个代理访问状态 s1 五次,并获得奖励 [0,0,1,1,0]。我应该计算平均奖励,例如 R(s1) = sum([0,0,1,1,0])/5?或者我应该使用一个移动平均线来赋予该州最近收到的奖励值更大的权重?我读过的大多数关于 Q 学习的描述都将 R(s) 视为某种常数,并且似乎从未涵盖随着经验的积累,随着时间的推移如何学习这个值。
编辑:我可能将 Q-Learning 中的 R(s) 与Markov Decision Process中的 R(s,s') 混淆了。问题仍然相似。在学习 MDP 时,更新 R(s,s') 的最佳方法是什么?