reward - 奖励分配强化学习

Question

问题1：我们想从s 到e。在每个单元格中，我们可以向右 R 或向下 D 移动。环境是完全已知的。该表有 (4*5) 20 个单元格。挑战在于我们不知道每个单元格的奖励是什么，但是当我们通过并完成一条路径时，我们将获得整体奖励。示例：一个解决方案可以是 RRDDRDR，总奖励为 16。

s 3 5 1 5

1 2 4 5 1

7 3 1 2 8

9 2 1 1 电子

目标是找到一组从开始到结束的动作，从而最大化获得的整体奖励。我们如何在动作之间分配整体奖励？

问题2：这个问题与问题1相同，但问题环境的奖励是动态的，因此我们到达一个单元的方式会影响前面单元的奖励。示例：对于 RRD 和 DRR 的两次移动，两者都会将我们带到同一个单元格，但由于它们具有不同的路径，因此前面的单元格将获得不同的奖励。

s 3 5 1 5

1 2 4 9 -1

7 3 2 -5 18

9 2 9 7 e

（RRD路径，选择这条路径会导致前面的cell的reward发生变化）

s 3 5 1 5

1 2 4 3 1

7 3 30 7 -8

9 2 40 11 e

（DRR路径，选择这条路径会导致前方小区的奖励发生变化）

目标是找到一组从开始到结束的动作，从而最大化获得的整体奖励。我们如何在动作之间分配整体奖励？（通过一条从起点到终点的路径后，获得整体奖励）

score 0 · Accepted Answer

你能多谈谈你正在做的研究吗？（这个问题听起来很像某人为了让你考虑临时信用分配而分配的那种东西。）

1 回答 1