我正在研究汽车跟踪问题,我收到的测量结果是不确定的(我知道噪声模型是高斯的,它的方差也是已知的)。在这种不确定性中,我如何选择下一步行动?
基本上我应该如何改变我的成本函数,以便我可以通过选择适当的行动来优化我的计划?
我正在研究汽车跟踪问题,我收到的测量结果是不确定的(我知道噪声模型是高斯的,它的方差也是已知的)。在这种不确定性中,我如何选择下一步行动?
基本上我应该如何改变我的成本函数,以便我可以通过选择适当的行动来优化我的计划?
普通强化学习适用于马尔可夫决策过程,假设您可以完全观察状态。因为你的状态是嘈杂的,你有一个部分可观察的马尔可夫决策过程。从理论上讲,您应该关注不同类别的 RL 方法。
实际上,由于您有很多关于不确定性参数的信息,您应该考虑使用卡尔曼或粒子滤波器来执行状态估计。然后,在您的 RL 问题中使用最可能的状态估计作为真实状态。当然,估计有时会出错,但如果您对价值函数使用函数逼近方法,则经验可以在相似的状态下推广,您将能够学习。学习表现将与您的状态估计质量成正比。