我试图了解 Deepmind 实现的 Breakout atari 中的奖励功能。我对奖励有点困惑。它们使用四帧表示每个状态,并且取决于每个动作的奖励将在四帧后收到。我的问题是,如果球被卡住了怎么办,它在哪里获得了很多奖励,如何确定获得奖励的相同动作是导致更多奖励的原因?
我正在谈论的案例:
我试图了解 Deepmind 实现的 Breakout atari 中的奖励功能。我对奖励有点困惑。它们使用四帧表示每个状态,并且取决于每个动作的奖励将在四帧后收到。我的问题是,如果球被卡住了怎么办,它在哪里获得了很多奖励,如何确定获得奖励的相同动作是导致更多奖励的原因?
我正在谈论的案例: