参考 Sutton 和 Barto 的 RL 书,第 2 版,Ch-3,pg-60。
这是 5x5 网格世界和每个状态的值: gridoworld with state values
使用 Bellman Backup 方程,可以计算每个状态的值:
这是中间 (3,3) 单元格的计算:
使用来自上、下、左和右单元格的值,以及具有pi = 1/4
所有转换概率的随机策略p(s',r|s,a) = 1
,计算成立。
但是角落细胞呢?
比如说,左上角的 3.3。那怎么计算呢?
仅使用较低的 (1.5) 和正确的 (8.8) 值是行不通的。另外,必须考虑的是,当智能体执行上左动作时,它仍然在网格上,但获得了 -1 的奖励。
你能帮我计算角落单元格的值吗?阅读 github 实现也无济于事。