这张幻灯片根据一组权重和特征函数显示了Q(状态,动作)的方程。我对如何编写特征函数感到困惑。
给定一个观察,我可以理解如何从观察中提取特征。但是根据观察,人们不知道采取行动的结果会对特征产生什么影响。那么如何编写一个将观察和动作映射到数值的函数呢?
在后面几张幻灯片展示的 Pacman 示例中,人们知道,给定一个状态,一个动作的效果将是什么。但情况并非总是如此。例如,考虑购物车杆问题(在 OpenAI 健身房中)。特征(实际上是观察的内容)是四个值:推车位置、推车速度、磁极角度和磁极旋转速度。有两个动作:向左推和向右推。但事先并不知道这些动作将如何改变四个特征值。那么如何计算 Q(s, a) 呢?也就是说,如何编写特征函数f i (state, action)?
谢谢。