问题1:我们想从s 到e。在每个单元格中,我们可以向右 R 或向下 D 移动。环境是完全已知的。该表有 (4*5) 20 个单元格。挑战在于我们不知道每个单元格的奖励是什么,但是当我们通过并完成一条路径时,我们将获得整体奖励。示例:一个解决方案可以是 RRDDRDR,总奖励为 16。
s 3 5 1 5
1 2 4 5 1
7 3 1 2 8
9 2 1 1 电子
目标是找到一组从开始到结束的动作,从而最大化获得的整体奖励。我们如何在动作之间分配整体奖励?
问题2:这个问题与问题1相同,但问题环境的奖励是动态的,因此我们到达一个单元的方式会影响前面单元的奖励。示例:对于 RRD 和 DRR 的两次移动,两者都会将我们带到同一个单元格,但由于它们具有不同的路径,因此前面的单元格将获得不同的奖励。
s 3 5 1 5
1 2 4 9 -1
7 3 2 -5 18
9 2 9 7 e
(RRD路径,选择这条路径会导致前面的cell的reward发生变化)
s 3 5 1 5
1 2 4 3 1
7 3 30 7 -8
9 2 40 11 e
(DRR路径,选择这条路径会导致前方小区的奖励发生变化)
目标是找到一组从开始到结束的动作,从而最大化获得的整体奖励。我们如何在动作之间分配整体奖励?(通过一条从起点到终点的路径后,获得整体奖励)