3

我正在寻找一种解决马尔可夫决策过程(MDP)的方法。我知道从一种状态到另一种状态的转变是确定性的,但环境是不稳定的。这意味着代理在再次访问相同状态时获得的奖励可能不同。有没有一种算法,比如 Q-Learning 或 SARSA,可以用来解决我的问题?

4

1 回答 1

2

从理论上讲,这将是一个非常困难的问题。也就是说,很难找到具有收敛于任何(最佳)解决方案的理论证明的算法。

在实践中,任何标准的 RL 算法(如您命名的那些)都可能没问题,只要它不是“太不稳定”。我的意思是,如果您的环境变化不会太快/突然/经常发生,那么在实践中可能会很好。您可能希望使用比在静止环境中稍高的探索率和/或更高的学习率,因为您需要能够继续学习,并且最近的经验将比旧的经验提供更多信息。

于 2018-03-09T16:14:26.570 回答