python - 使用分布式训练时 pytorch CUDA 内存不足 - 数字不相加

翻译自：https://stackoverflow.com/questions/69234364 2021-09-18T11:48:44.743

87 次

在使用 Torch Distributed Elastic（2 台机器，每台机器有 2 个 GPU）和 DataLoader 和 2 名工作人员进行训练时，出现内存不足错误：

运行时错误：CUDA 内存不足。尝试分配 148.00 MiB（GPU 0；15.90 GiB 总容量；314.95 MiB 已分配；128.75 MiB 空闲；PyTorch 总共保留 342.00 MiB）"

这真的很奇怪，因为该卡有 15.90 GiB，当只保留和分配少量时，只有 128.75 MiB 可用。

有什么原因可能导致它吗？你有什么建议我可以调试它吗？

0 回答 0