0

我一直在玩MIT DeepTraffic Challenge正在观看讲座和阅读幻灯片

在大致了解了架构之后,我想知道环境给出的奖励函数到底是什么。

  1. 它与网格单元的输入(最大可驱动速度)相同吗?
  2. 他们是否使用奖励剪辑?

我还发现了这个 javascript Codebase,它也没有真正帮助我理解。

4

1 回答 1

1

奖励是区间内按比例缩放的平均速度:[-3, 3]。

deeptraffic 环境的实现在这个文件中: https ://selfdrivingcars.mit.edu/deeptraffic/gameopt.js

我试图让它可读。这是 WIP 之一: https ://github.com/mljack/deeptraffic/blob/master/gameopt.js

    var reward = (avgSpeedMeasurement - 60) / 20;
于 2018-07-18T18:53:26.340 回答