reinforcement-learning - 如何在非平稳环境中求解确定性 MDP

翻译自：https://stackoverflow.com/questions/49193415 2018-03-09T12:03:24.560

507 次

3

我正在寻找一种解决马尔可夫决策过程（MDP）的方法。我知道从一种状态到另一种状态的转变是确定性的，但环境是不稳定的。这意味着代理在再次访问相同状态时获得的奖励可能不同。有没有一种算法，比如 Q-Learning 或 SARSA，可以用来解决我的问题？

1 回答 1

2

从理论上讲，这将是一个非常困难的问题。也就是说，很难找到具有收敛于任何（最佳）解决方案的理论证明的算法。

在实践中，任何标准的 RL 算法（如您命名的那些）都可能没问题，只要它不是“太不稳定”。我的意思是，如果您的环境变化不会太快/突然/经常发生，那么在实践中可能会很好。您可能希望使用比在静止环境中稍高的探索率和/或更高的学习率，因为您需要能够继续学习，并且最近的经验将比旧的经验提供更多信息。

于 2018-03-09T16:14:26.570 回答