谷歌今天发布了 TensorFlow。
我一直在代码中四处寻找,但在代码或 API 中没有看到任何关于跨 GPU 服务器集群进行训练的内容。
它有分布式训练功能吗?
谷歌今天发布了 TensorFlow。
我一直在代码中四处寻找,但在代码或 API 中没有看到任何关于跨 GPU 服务器集群进行训练的内容。
它有分布式训练功能吗?
更新:
该版本于 2016 年 2 月 26 日发布,由共同作者 Derek Murray 在此处的原始问题中宣布,并使用gRPC进行进程间通信。
以前的:
在上述更新之前,TensorFlow的分布式实现尚未发布。对分布式实现的支持是本期的主题,合著者 Vijay Vasudevan写道:
我们正在努力提供分布式实现,目前不在初始版本中
杰夫迪恩后来提供了更新:
我们目前内部的分布式扩展和谷歌内部的基础设施有些纠缠不清,这也是我们先发布单机版本的原因。该代码还没有在 GitHub 中,因为它目前依赖于谷歌代码库的其他部分,其中大部分已经被修剪,但还有一些剩余的。
我们意识到分布式支持非常重要,它是我们目前优先考虑的首要功能之一。
我们花了几个月的时间,但今天标志着初始分布式 TensorFlow 运行时的发布。这包括对多台机器的支持,每台机器都有多个 GPU,由gRPC提供通信。
当前版本包括必要的后端组件,以便您可以手动组装集群并从客户端程序连接到它。自述文件中提供了更多详细信息。
你可能已经注意到了。Tensorflow 已经支持分布式 DNN 训练有一段时间了。详情请参阅其官网。
==================================================== ========================
不,它还不支持分布式训练,这有点令人失望。但我认为从单机扩展到多机并不难。相比其他开源库,比如 Caffe,TF 的数据图结构更适合跨机任务。