我刚刚开始使用深度强化学习,我正试图扼杀这个概念。
我有这个确定性贝尔曼方程
当我从 MDP 实现随机性时,我得到 2.6a
我的等式是这个假设正确的。我看到这个实现 2.6a 在状态值函数上没有策略标志。但对我来说,这没有任何意义,因为我正在使用我可能最终进入哪些不同的下一步的概率。我认为这与说政策相同。如果是 2.6a 是正确的,那么我可以假设其余部分(2.6b 和 2.6c),因为那时我想像这样编写动作状态函数:
我之所以这样做,是因为我想从确定性的角度向非确定性的角度解释自己。
我希望有人可以帮助解决这个问题!
最好的问候索伦科赫