Nvidia 的NVLink加速了同一台机器上多个 GPU 之间的数据传输。我使用 PyTorch 在这样的机器上训练大型模型。
我明白为什么 NVLink 会使模型并行训练更快,因为一次通过模型将涉及多个 GPU。
但它会加速使用DistributedDataParallel的数据并行训练过程吗?
Nvidia 的NVLink加速了同一台机器上多个 GPU 之间的数据传输。我使用 PyTorch 在这样的机器上训练大型模型。
我明白为什么 NVLink 会使模型并行训练更快,因为一次通过模型将涉及多个 GPU。
但它会加速使用DistributedDataParallel的数据并行训练过程吗?