是否有可用的基于价值的(深度)强化学习 RL 算法,它完全围绕仅学习状态-价值函数V(s)
而不是状态-动作-价值函数Q(s,a)
?
如果没有,为什么不,或者,它是否可以很容易地实施?
Python 中是否有任何实现,比如 Pytorch、Tensorflow 或者 RLlib 中的更高级别?
我问是因为
我有一个多智能体问题来模拟现实中一些有效的集中决策(i)成功地激励代表分散的智能体讲真话,以及(ii)基本上取决于各种参与者的价值函数 i(在 V i (s i,t+1 ) 上针对不同可实现的后期状态 s i,t+1对于所有参与者 i),定义代理的动作。从单个智能体的角度来看,渐进式学习的多智能体性质意味着只要训练没有完成,系统就会看起来是非平稳的,并且由于问题的性质,我相当相信学习任何自然的我的问题的 Q(s,a) 函数比简单地学习终端价值函数 V(s) 的效率要低得多'价值观。
具有时间差异学习的典型 DQN 的数学似乎很自然地适用于 V(s) 而不是组合 Q(s,a) 的基于状态值的深度网络训练。然而,在基于价值的 RL 子域中,每个人似乎都专注于学习 Q(s,a),到目前为止我还没有发现任何纯粹的 V(s) 学习算法(除了分析和非深度的传统 Bellman-方程动态规划方法)。
我知道 Dueling DQN (DDQN),但它似乎并不是我正在寻找的。“至少” DDQN 有一个单独的学习器V(s)
,但总体而言,它仍然以Q(s,a)
分散的方式轻松学习,这在我的情况下似乎不利于。