我是 RL 的新手,我做过的最好的事情是 openAI 健身房中的 CartPole。在 cartPole 中,API 会根据所采取的操作自动提供奖励。当我只有像素数据并且没有可以告诉某个动作的奖励的“魔术函数”时,我应该如何决定奖励。
比如说,我想在 GTA 圣安地列斯制作一个自动驾驶机器人。我可以访问的输入是原始像素。我应该如何计算它所采取的特定行动的奖励?
我是 RL 的新手,我做过的最好的事情是 openAI 健身房中的 CartPole。在 cartPole 中,API 会根据所采取的操作自动提供奖励。当我只有像素数据并且没有可以告诉某个动作的奖励的“魔术函数”时,我应该如何决定奖励。
比如说,我想在 GTA 圣安地列斯制作一个自动驾驶机器人。我可以访问的输入是原始像素。我应该如何计算它所采取的特定行动的奖励?