reinforcement-learning - 如何处理位置的不确定性？

Question

我正在研究汽车跟踪问题，我收到的测量结果是不确定的（我知道噪声模型是高斯的，它的方差也是已知的）。在这种不确定性中，我如何选择下一步行动？

基本上我应该如何改变我的成本函数，以便我可以通过选择适当的行动来优化我的计划？

score 1 · Accepted Answer

普通强化学习适用于马尔可夫决策过程，假设您可以完全观察状态。因为你的状态是嘈杂的，你有一个部分可观察的马尔可夫决策过程。从理论上讲，您应该关注不同类别的 RL 方法。

实际上，由于您有很多关于不确定性参数的信息，您应该考虑使用卡尔曼或粒子滤波器来执行状态估计。然后，在您的 RL 问题中使用最可能的状态估计作为真实状态。当然，估计有时会出错，但如果您对价值函数使用函数逼近方法，则经验可以在相似的状态下推广，您将能够学习。学习表现将与您的状态估计质量成正比。

1 回答 1