这两个定义似乎都表明它们正在从状态映射到动作,那么有什么区别还是我错了?
问问题
775 次
1 回答
1
这篇文章真的为你总结了:
什么是基于模型的强化学习?
建模或不建模
“模型”是机器学习(以及更普遍的科学学科)中经常出现的术语之一,通常对我们的意思有相对模糊的解释。幸运的是,在强化学习中,模型具有非常特定的含义:它指的是环境的不同动态状态以及这些状态如何导致奖励。
...政策是您根据当前状态/位置确定采取何种行动/方向的任何策略。
强化学习(或任何学习)的总体结果是制定一项政策,即在呈现特定领域时要采取的一系列行为或行动。
强化因素是您根据先前学习的结果不断地重新运行学习过程,有效地应用新策略并从结果中学习以改进策略。
在基于模型的强化学习中,我们使用模型来表示环境或领域,这记录了事实或状态以及可能的动作。通过了解某些事实,策略可以在每个重复周期中专门针对这些状态和动作,测试和提高策略的准确性,就像它提高模型的质量一样。
另一种看待两者的方式是,模型是先前学习的记录或结果,它是环境的更新视图。该模型处理事实或假设的事实,根据过去的政策执行结果,模型保存了过去执行的记录,这些数据可以用来近似从特定状态下采取某些行动的结果。政策是对行为的实际学习,而模型是支持和确认我们学习的事实。
同一篇文章中的这张图简化了强化学习中模型和策略之间的关系:
于 2019-07-27T11:58:28.830 回答