Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
1 步/状态 MDP(马尔可夫决策过程)是什么意思?
让我们考虑一个n动作1状态 MDP。无论您采取何种行动,您都将保持相同的状态。但是,您将获得仅取决于您采取的行动的奖励。如果您希望在此设置中最大化长期奖励,您需要做的只是判断n 个可用选项(动作)中哪个是最好的。
这正是老虎机问题。
在老虎机中,过去拉动杠杆不会影响杠杆的输出或奖励。
奖励仅取决于拉动的杠杆,过去没有。
所以只有一种状态。