-1

请看下面的图片:

我的目标是代理在环境中旋转和移动而不是掉入火坑,我有这样的想法:

在此处输入图像描述

Do for 1000 episodes:
An Episode :
start to traverse the environment;
if falls into a hole , back to first place !

所以我读过一些地方:目标是一集的终点,所以如果我们认为目标不是落入火灾,目标的反面(即放入火坑)将是一集的终点。您对目标设定有何建议?

另一个问题是我为什么要设置奖励矩阵?我读过 Q Learning 是无模型的!我知道在 Q Learning 中,我们将设定目标,而不是实现目标的方式。(与监督学习相反。)

4

1 回答 1

1

许多研究都针对奖励功能。制定奖励函数以产生期望的行为可能是不直观的。正如 Don Reba 评论的那样,简单地保持静止(只要您不开始处于火灾状态!)是避免火灾的完全合理的方法。但这可能不是你想要的。

刺激活动(而不是在特定状态下扎营)的一种方法是针对在非目标状态下经历的每个时间步长对代理进行惩罚。在这种情况下,您可以为在非目标状态中花费的每个时间步分配 -1 奖励,为目标状态分配零奖励。

为什么不为进球+1?你可以编写一个 +1 奖励的解决方案,但考虑一下:如果目标状态是 +1,那么代理可以通过简单地停在目标状态直到奖励变为积极的。

目标状态为零会迫使代理找到到达目标的最快路径(我认为这是期望的)。最大化奖励(或最小化负奖励)的唯一方法是尽快找到目标。

还有火?为着火着陆分配 -100(或 -1,000 或 -1,000,000 - 任何适合您的目标)的奖励。+0 表示目标,-1 表示非目标,-100 表示火力的组合应该提供产生所需控制策略的奖励函数。

脚注:谷歌“负有界马尔可夫决策过程(MDPs)”以获取有关这些奖励函数及其可以产生的策略的更多信息。

于 2015-11-24T05:15:56.243 回答