tensorflow - 如何使用正确配置的参数服务器在 SLURM 集群上运行 Tensorflow？

翻译自：https://stackoverflow.com/questions/40439880 2016-11-05T15:21:44.897

1083 次

我很幸运能够访问我大学的 SLURM 驱动的 GPU 集群。我一直试图让 Tensorflow 在集群节点中运行，但到目前为止我还没有找到任何文档。（我在大学里交谈过的每个人都曾使用 CPU 节点或使用单个 GPU 节点来运行它。

我在这里从上一个问题中找到了一个很好的文档。不幸的是，它相当不完整。我发现的所有其他分布式示例（例如这个示例）都依赖于显式指定参数服务器。

当我尝试使用 SO question 中的代码运行它时，我似乎可以正常工作，直到它无法连接到不存在的参数服务器或在调用 server.join 并且没有向 sbatch outfile 提供打印输出（其中我明白应该发生）。

简而言之，我的问题是如何在 SLURM 集群上启动 Tensorflow？从批量阶段开始。这是我第一次在 AWS 上处理除 SPARK 之外的分布式计算框架，我很想了解更多关于如何正确配置 Tensorflow 的信息。如何指定 tf_hostlist 例如服务器中的哪一项作为参数服务器？或者，我可以像在其他示例中看到的那样，使用 sbatch 向每个工作人员发送稍微不同的命令吗？

tensorflow - 如何使用正确配置的参数服务器在 SLURM 集群上运行 Tensorflow？

0 回答 0

Related

Reference