2

我正在尝试训练 DRL 代理使用 DQN 方法玩游戏。游戏非常简单,类似于突围。水果不断从屏幕顶部(垂直)落下,代理只需将自己对准水果即可获得奖励。它可以采取三种行动:左移、停留、右移。在此处输入图像描述

假设a2是指不移动桨,a3是指向右移动,a1是指向左移动。

假设我们采取了次优动作 a3(向右移动)并移动到下一个状态。那么该状态下的最佳动作将是向左移动(a1),然后执行最佳动作。因此,动作 a2 和 a3 之间的唯一成本差异将是浪费了两个步骤来返回和返回。

如果采取次优行动没有负回报,那么智能体就没有选择最优行动的动机。因此,采取次优行动的负面回报应该足够高,以至于不鼓励代理这样做。我试图用数学方法把这种直觉放在这里。这可以解释为什么 q 值彼此如此接近。

那么,最优 Q* 函数满足以下条件:

在此处输入图像描述

1)这是正确的吗?(这个论点有缺陷吗?)

2)这可以解释为什么深度 Q 学习中的 Q 值非常接近吗?

4

0 回答 0