我正在寻找一种解决马尔可夫决策过程(MDP)的方法。我知道从一种状态到另一种状态的转变是确定性的,但环境是不稳定的。这意味着代理在再次访问相同状态时获得的奖励可能不同。有没有一种算法,比如 Q-Learning 或 SARSA,可以用来解决我的问题?
问问题
507 次
我正在寻找一种解决马尔可夫决策过程(MDP)的方法。我知道从一种状态到另一种状态的转变是确定性的,但环境是不稳定的。这意味着代理在再次访问相同状态时获得的奖励可能不同。有没有一种算法,比如 Q-Learning 或 SARSA,可以用来解决我的问题?