1

1 步/状态 MDP(马尔可夫决策过程)是什么意思?

4

2 回答 2

3

让我们考虑一个n动作1状态 MDP。无论您采取何种行动,您都将保持相同的状态。但是,您将获得仅取决于您采取的行动的奖励。如果您希望在此设置中最大化长期奖励,您需要做的只是判断n 个可用选项(动作)中哪个是最好的。

这正是老虎机问题。

于 2020-02-11T20:08:14.340 回答
1

在老虎机中,过去拉动杠杆不会影响杠杆的输出或奖励。

奖励仅取决于拉动的杠杆,过去没有。

所以只有一种状态。

于 2020-02-11T14:20:45.940 回答