1

最近tensorflow增加了distribute training模块,distribute的前置要求是什么?我的意思是这样的环境,

tensorflow >= 0.8 kubernates shared file system, gcloud? 

它已经发布了示例代码:

有没有办法运行 tensorflow 集群示例,当只有 hdfs 而没有任何共享文件系统时,模型文件存储在哪里?

4

1 回答 1

1

每台计算机都需要安装 tensorflow(根据我的经验,它们都应该是相同的版本。我在混合版本 8 和 9 时遇到了一些问题)。设置完成后,每台计算机都需要访问要运行的代码(例如 main.py)。我们使用 NFS 来共享它,但您可以在每台机器上轻松地 git pull 以获取您的代码的最新副本。然后你只需要启动它们。在我们最基本的设置中,我们只会 ssh 到每台机器,但是如果你有一个像 kubernates 这样的集群,那么它对你来说可能会有所不同。

至于检查点,如果这是您最后一个问题所问的,我相信只有首席工作人员会写入检查点文件。

如果您还有其他问题,请告诉我。

于 2016-08-31T22:32:46.020 回答