0

我的理解是否正确,model_deploy允许用户在一台机器上使用多个设备训练模型?基本前提似乎是克隆设备进行变量共享,并且变量以循环方式分发到参数服务器。

另一方面,分布式张量流框架使用户能够通过集群训练模型。集群允许用户使用跨多个服务器的多个设备训练模型。

我认为 Slim 文档非常精简,并且已经多次提出了这一点: 跨多个 GPU/机器的 TF-Slim 的配置/标志

谢谢你。

4

0 回答 0