0

我有两个 V100 GPU 计算集群(命名为 - 具有 2 个节点的“Cluster1”和具有 2 个节点的“Cluster2”),我想在我的训练脚本(Pytorch 训练)中使用这两个集群。

现在,我可以在我的计算目标代码中使用“Cluster1”或“Cluster2”,并且我的训练代码正在使用 1 个 V100 GPU 进行训练。任何人都可以帮助了解如何在我的计算目标代码中同时使用集群(集群 1 和集群 2),以便我的训练脚本可以看到 2 个 V100 GPU 而不是 1 个 GPU。

你能告诉我这将如何实现,还请让我了解一个 V100 GPU 集群中的 2 个节点是什么意思(我确定不是两个 GPU)。但是,一个集群中的 2 个节点意味着什么以及它是如何工作的?

4

0 回答 0