0

我是 RL 的新手,我做过的最好的事情是 openAI 健身房中的 CartPole。在 cartPole 中,API 会根据所采取的操作自动提供奖励。当我只有像素数据并且没有可以告诉某个动作的奖励的“魔术函数”时,我应该如何决定奖励。

比如说,我想在 GTA 圣安地列斯制作一个自动驾驶机器人。我可以访问的输入是原始像素。我应该如何计算它所采取的特定行动的奖励?

4

1 回答 1

2

你需要制定一个奖励来代表你想要的行为——这实际上不是一件小事。

如果屏幕的固定部分有一些代表分数的数字,那么您可以使用老式的图像处理技术来读取数字并让它们成为您的奖励功能。

如果屏幕的固定部分有固定比例和方向的小地图,那么您可以使用减去角色到目标的距离作为奖励。

如果 UI 中没有可用于代理奖励的固定元素,那么您将度过一段糟糕的时光,除非您可以以某种方式访问​​控制台的内部变量来代理奖励(使用 PC 的位置坐标) , 例如)。

于 2018-01-21T18:21:47.330 回答