我一直在玩MIT DeepTraffic Challenge 也正在观看讲座和阅读幻灯片
在大致了解了架构之后,我想知道环境给出的奖励函数到底是什么。
- 它与网格单元的输入(最大可驱动速度)相同吗?
- 他们是否使用奖励剪辑?
我还发现了这个 javascript Codebase,它也没有真正帮助我理解。
我一直在玩MIT DeepTraffic Challenge 也正在观看讲座和阅读幻灯片
在大致了解了架构之后,我想知道环境给出的奖励函数到底是什么。
我还发现了这个 javascript Codebase,它也没有真正帮助我理解。
奖励是区间内按比例缩放的平均速度:[-3, 3]。
deeptraffic 环境的实现在这个文件中: https ://selfdrivingcars.mit.edu/deeptraffic/gameopt.js
我试图让它可读。这是 WIP 之一: https ://github.com/mljack/deeptraffic/blob/master/gameopt.js
var reward = (avgSpeedMeasurement - 60) / 20;