根据最近发布的白皮书和 GitHub 上的RFC,TensorFlow Eager 目前支持分布式执行。上面提到,类似于图形模式,我们可以通过将设备名称设置为例如“/job:training/task:2/device:GPU:0”来在远程设备上急切地运行操作。但是,我找不到有关如何执行此操作的任何代码示例或教程。
我确实注意到有很多关于tf.distribute的教程,这是一个用于分布式训练的高级 API,它同时支持图形和 Eager 模式。但是,我更感兴趣的是 tf.distribute 如何在 Eager模式下工作。具体来说,我想知道:
如何在 Eager 模式下将客户端连接到远程服务器?
在 Eager 模式下何时以及如何指定集群定义?
如果有人能提供这些问题的答案,我将不胜感激。谢谢!