0

我正在尝试实现IMAPLA 算法(强化学习)

在该算法中,有许多参与者使用他们的神经网络执行动作并将轨迹发送给学习者。学习者具有与所有参与者相同的神经网络,它训练该神经网络并在进行一些学习后将更新的权重赋予所有参与者

我想了解哪种分配策略更适合这项任务。我的理解是镜像策略参数在所有机器上共享,但在这里我们不需要,所以我应该使用哪一个?

4

0 回答 0