14

谷歌今天发布了 TensorFlow。

我一直在代码中四处寻找,但在代码或 API 中没有看到任何关于跨 GPU 服务器集群进行训练的内容。

它有分布式训练功能吗?

4

3 回答 3

16

更新:

该版本于 2016 年 2 月 26 日发布,由共同作者 Derek Murray 在此处的原始问题中宣布,并使用gRPC进行进程间通信。

以前的:

在上述更新之前,TensorFlow的分布式实现尚未发布。对分布式实现的支持是本期的主题,合著者 Vijay Vasudevan写道

我们正在努力提供分布式实现,目前不在初始版本中

杰夫迪恩后来提供了更新

我们目前内部的分布式扩展和谷歌内部的基础设施有些纠缠不清,这也是我们先发布单机版本的原因。该代码还没有在 GitHub 中,因为它目前依赖于谷歌代码库的其他部分,其中大部分已经被修剪,但还有一些剩余的。

我们意识到分布式支持非常重要,它是我们目前优先考虑的首要功能之一。

于 2015-11-11T00:00:48.197 回答
8

我们花了几个月的时间,但今天标志着初始分布式 TensorFlow 运行时的发布。这包括对多台机器的支持,每台机器都有多个 GPU,由gRPC提供通信。

当前版本包括必要的后端组件,以便您可以手动组装集群并从客户端程序连接到它。自述文件中提供了更多详细信息。

于 2016-02-26T13:58:53.333 回答
1

更新

你可能已经注意到了。Tensorflow 已经支持分布式 DNN 训练有一段时间了。详情请参阅其官网。

==================================================== ========================

以前的

不,它还不支持分布式训练,这有点令人失望。但我认为从单机扩展到多机并不难。相比其他开源库,比如 Caffe,TF 的数据图结构更适合跨机任务。

于 2015-11-10T03:33:47.053 回答