我有一个任务,我必须在网格世界(代理电影左、右、上、下)中计算最优策略(强化学习 - 马尔可夫决策过程)。
在左表中,有最优值 (V*)。在右表中,有解决方案(方向),我不知道如何通过使用“最佳策略”公式获得。Y=0.9(折扣系数)
这是公式:
因此,如果有人知道如何使用该公式来获得解决方案(那些箭头),请提供帮助。
编辑:此页面上有完整的问题描述: http : //webdocs.cs.ualberta.ca/~sutton/book/ebook/node35.html 奖励:状态 A(第 2 列,第 1 行)后面是奖励+10 并转换到状态 A',而状态 B(第 4 列,第 1 行)之后是 +5 的奖励并转换到状态 B'。您可以移动:上、下、左、右。您不能移动到网格之外或留在同一个地方。