这两种 RL 技术中的奖励是如何工作的?我的意思是,他们都改进了政策及其评估,但没有改善奖励。我如何从一开始就猜到它们?
2 回答
强化学习是针对人工智能代理没有关于它所运行的世界的信息的问题。因此强化学习算法不仅为您提供每个状态下的策略/最佳操作,而且还可以在完全陌生的环境中导航(不知道什么动作将导致哪个结果状态)并学习这个新环境的参数。这些是基于模型的强化学习算法
现在 Q Learning 和 Temporal Difference Learning 是无模型强化学习算法。意思是,人工智能代理做的事情与基于模型的算法相同,但它不必学习它正在运行的世界的模型(比如转移概率)。通过多次迭代,它得出了每个状态的映射到在该状态下要执行的最佳操作。
现在来回答您的问题,您不必猜测不同状态的奖励。最初,当代理对环境不熟悉时,它只是从它所处的状态中选择一个要执行的随机动作并将其提供给模拟器。模拟器基于转换函数,返回该状态动作对的结果状态,并返回处于该状态的奖励。
模拟器类似于现实世界中的自然。例如,你发现世界上不熟悉的东西,你做了一些动作,比如触摸它,如果这东西原来是一个热的物体,自然会以疼痛的形式给予奖励,这样下次你知道当你试试那个动作。对此进行编程时,重要的是要注意模拟器的工作对于试图学习环境的 AI 代理是不可见的。
现在根据代理感知到的这个奖励,它支持它的 Q 值(在 Q-Learning 的情况下)或效用值(在 TD-Learning 的情况下)。经过多次迭代,这些 Q 值会收敛,您可以根据状态-动作对的 Q 值为每个状态选择最佳动作。
你不需要猜测奖励。奖励是来自环境的反馈,奖励是环境的参数。算法在代理只能观察反馈、状态空间和动作空间的条件下工作。
Q-learning 和 TD 的关键思想是异步随机逼近,我们使用长期奖励期望的噪声评估来逼近贝尔曼算子的不动点。
例如,如果我们想估计期望高斯分布,那么我们可以对其进行采样和平均。