对于控制自主控制的 MLP 策略,如果我们只使用当前的观测值(自动驾驶车辆的速度、前车的速度和相对距离),或者在将当前的观测值输入到 MLP 之前,我们必须使用其他一些处理方法政策。由于问题是部分观察到的,我不确定我是否只能使用当前的观察结果。
问问题
37 次
对于控制自主控制的 MLP 策略,如果我们只使用当前的观测值(自动驾驶车辆的速度、前车的速度和相对距离),或者在将当前的观测值输入到 MLP 之前,我们必须使用其他一些处理方法政策。由于问题是部分观察到的,我不确定我是否只能使用当前的观察结果。