我想实现一个强化学习连接四个代理。我不确定如何这样做以及它应该看起来如何。我熟悉强化学习的理论方面,但不知道应该如何实施。
应该怎么做?我应该使用 TD(lambda) 还是 Q-learning,MinMax 树是如何参与其中的?我的 Q 和 V 函数如何工作(行动质量和状态价值)。我如何给这些东西打分?我改进的基本政策是什么,我的模式是什么?另一件事是我应该如何保存状态或 statesXactions(取决于学习算法)。我应该使用神经网络吗?如果是,如何?
我正在使用 JAVA。
谢谢。