deep-learning - 为什么深度 Q 学习中动作的 Q 值如此接近？

问问题 2016-10-19T07:29:03.213

581 次

我正在尝试训练 DRL 代理使用 DQN 方法玩游戏。游戏非常简单，类似于突围。水果不断从屏幕顶部（垂直）落下，代理只需将自己对准水果即可获得奖励。它可以采取三种行动：左移、停留、右移。

假设a2是指不移动桨，a3是指向右移动，a1是指向左移动。

假设我们采取了次优动作 a3（向右移动）并移动到下一个状态。那么该状态下的最佳动作将是向左移动（a1），然后执行最佳动作。因此，动作 a2 和 a3 之间的唯一成本差异将是浪费了两个步骤来返回和返回。

如果采取次优行动没有负回报，那么智能体就没有选择最优行动的动机。因此，采取次优行动的负面回报应该足够高，以至于不鼓励代理这样做。我试图用数学方法把这种直觉放在这里。这可以解释为什么 q 值彼此如此接近。

那么，最优 Q* 函数满足以下条件：

1）这是正确的吗？（这个论点有缺陷吗？）

2）这可以解释为什么深度 Q 学习中的 Q 值非常接近吗？

0 回答 0