我一直在研究 Tensorflow 图间同步训练应用程序。同步训练由 SyncReplicasOptimizerV2 类实现。从SyncReplicasOptimizerV2 类的文档中,我了解到一组梯度队列和一个令牌队列是为同步而创建的。
我在想
- 这些队列位于哪里,主要工作任务或 ps 任务?如果梯度队列是主要工作人员,据我所知,主要工作人员任务还必须处理检查点、初始化、摘要......
- 这个单一的首席工作者任务容易成为性能瓶颈吗?
- 不同的工作任务(除了负责人)之间是否有任何网络通信,如果是,网络通信的存在是什么?
PS:我所有的问题都是在进行图间复制训练的场景中,每个任务都在不同的机器上。