machine-learning - MIT 深度流量挑战中的奖励函数？

问问题 2018-06-22T13:45:26.650

212 次

0

我一直在玩MIT DeepTraffic Challenge 也正在观看讲座和阅读幻灯片

在大致了解了架构之后，我想知道环境给出的奖励函数到底是什么。

它与网格单元的输入（最大可驱动速度）相同吗？
他们是否使用奖励剪辑？

我还发现了这个 javascript Codebase，它也没有真正帮助我理解。

1 回答 1

1

奖励是区间内按比例缩放的平均速度：[-3, 3]。

deeptraffic 环境的实现在这个文件中： https ://selfdrivingcars.mit.edu/deeptraffic/gameopt.js

我试图让它可读。这是 WIP 之一： https ://github.com/mljack/deeptraffic/blob/master/gameopt.js

    var reward = (avgSpeedMeasurement - 60) / 20;

于 2018-07-18T18:53:26.340 回答