我正在研究分布式 Tensorflow,特别是使用以下论文https://github.com/Russell91/TensorBox中给出的分布式 Tensorflow 实现 Reinspect 模型。
我们正在使用分布式张量流设置的 Between-graph-Asynchronous 实现,但结果非常令人惊讶。在基准测试中,我们发现分布式训练所花费的训练时间几乎是单台机器训练的 2 倍多。任何有关可能发生的事情以及可以尝试的其他事情的线索将不胜感激。谢谢
注意:帖子中有一个更正,我们使用的是图间实现而不是图内实现。对错误感到抱歉