2

Nvidia 的NVLink加速了同一台机器上多个 GPU 之间的数据传输。我使用 PyTorch 在这样的机器上训练大型模型。

我明白为什么 NVLink 会使模型并行训练更快,因为一次通过模型将涉及多个 GPU。

但它会加速使用DistributedDataParallel的数据并行训练过程吗?

4

1 回答 1

2

kGPU上的数据并行训练如何工作?
您将您的小批量拆分为多个k部分,每个部分在不同的 GPU 上转发,并在每个 GPU 上估计梯度。但是,(这是非常关键的)更新权重必须在所有 GPU 之间同步。这也是 NVLink 对于数据并行训练变得重要的地方。

于 2021-01-18T15:53:43.320 回答