我正在尝试训练 DRL 代理使用 DQN 方法玩游戏。游戏非常简单,类似于突围。水果不断从屏幕顶部(垂直)落下,代理只需将自己对准水果即可获得奖励。它可以采取三种行动:左移、停留、右移。
假设a2是指不移动桨,a3是指向右移动,a1是指向左移动。
假设我们采取了次优动作 a3(向右移动)并移动到下一个状态。那么该状态下的最佳动作将是向左移动(a1),然后执行最佳动作。因此,动作 a2 和 a3 之间的唯一成本差异将是浪费了两个步骤来返回和返回。
如果采取次优行动没有负回报,那么智能体就没有选择最优行动的动机。因此,采取次优行动的负面回报应该足够高,以至于不鼓励代理这样做。我试图用数学方法把这种直觉放在这里。这可以解释为什么 q 值彼此如此接近。
那么,最优 Q* 函数满足以下条件:
1)这是正确的吗?(这个论点有缺陷吗?)
2)这可以解释为什么深度 Q 学习中的 Q 值非常接近吗?