我正在尝试为自动驾驶车辆实施 DRL(深度强化学习)代理。我目前正在使用一个简单的摄像头教我的代理人不要撞到其他汽车。有很多方法可以加快训练速度,但目前,我专注于在我的观察中添加运动感。
互联网上的每个人(包括谷歌关于 Atari 游戏的文章)都提到,为了在观察中添加运动是捕获 3-4 帧,而不是 1 帧并将它们作为一个观察值馈送到 QNetwork。但是,这在使用相机数据时不太实用,因为它需要大量的计算能力来训练代理。例如:
假设您使用分辨率为 256x256 的灰度相机,我们使用一个简单的统一回放内存,最多可容纳 20000 个观测值。那么,存储在内存中的像素数为:
20000 (Samples) * 4 (Frames) * 256 (Width) * 256 (Height) = 5.2 GB of Physical RAM.
此外,假设您使用 64 个观察的批量大小来为代理提供数据,该代理在第一层包含 32 个过滤器的 CNN,那么您需要:
64 (Batch Size) * (4 Frames) * 256 (Width) * 256 (Height) * 32 (Filters) = 0.5 GB of GPU.
这是一个疯狂的数据量,需要代理处理 1 个简单的灰度相机,只是为了增加运动感。
我正在考虑另一种添加运动感的方法,但是,我在互联网上找不到任何关于它的信息。既然我们已经知道了车辆的速度,那么我们可以给代理喂食:
- 1 包含相机数据的帧。
- 1帧在图像中心包含车辆速度的归一化值(例如在图像中心保留一个32x32窗口,其中包含车辆的归一化速度(0.0-1.0),其余像素的值为0。
这样,我们将数据的大小减少了一半。你认为这可能是一个好方法吗?