deep-learning - 深度纯价值强化学习：训练 V(s) 而不是 Q(s,a)？

Question

是否有可用的基于价值的（深度）强化学习 RL 算法，它完全围绕仅学习状态-价值函数V(s)而不是状态-动作-价值函数Q(s,a)？

如果没有，为什么不，或者，它是否可以很容易地实施？

Python 中是否有任何实现，比如 Pytorch、Tensorflow 或者 RLlib 中的更高级别？

我问是因为

我有一个多智能体问题来模拟现实中一些有效的集中决策（i）成功地激励代表分散的智能体讲真话，以及（ii）基本上取决于各种参与者的价值函数 i（在 V _i (s _i,t+1 ) 上针对不同可实现的后期状态 s _i,t+1对于所有参与者 i)，定义代理的动作。从单个智能体的角度来看，渐进式学习的多智能体性质意味着只要训练没有完成，系统就会看起来是非平稳的，并且由于问题的性质，我相当相信学习任何自然的我的问题的 Q(s,a) 函数比简单地学习终端价值函数 V(s) 的效率要低得多'价值观。
具有时间差异学习的典型 DQN 的数学似乎很自然地适用于 V(s) 而不是组合 Q(s,a) 的基于状态值的深度网络训练。然而，在基于价值的 RL 子域中，每个人似乎都专注于学习 Q(s,a)，到目前为止我还没有发现任何纯粹的 V(s) 学习算法（除了分析和非深度的传统 Bellman-方程动态规划方法）。

我知道 Dueling DQN (DDQN)，但它似乎并不是我正在寻找的。“至少” DDQN 有一个单独的学习器V(s)，但总体而言，它仍然以Q(s,a)分散的方式轻松学习，这在我的情况下似乎不利于。

0 回答 0