flow-project - FLOW中关于MLP策略的问题

Question

对于控制自主控制的 MLP 策略，如果我们只使用当前的观测值（自动驾驶车辆的速度、前车的速度和相对距离），或者在将当前的观测值输入到 MLP 之前，我们必须使用其他一些处理方法政策。由于问题是部分观察到的，我不确定我是否只能使用当前的观察结果。

score 0 · Accepted Answer

你能澄清一下这个问题吗？你指的是哪个场景？从技术上讲，您可以对 MLP 使用您喜欢的任何观察结果。

1 回答 1