1

在使用 Torch Distributed Elastic(2 台机器,每台机器有 2 个 GPU)和 DataLoader 和 2 名工作人员进行训练时,出现内存不足错误:

运行时错误:CUDA 内存不足。尝试分配 148.00 MiB(GPU 0;15.90 GiB 总容量;314.95 MiB 已分配;128.75 MiB 空闲;PyTorch 总共保留 342.00 MiB)"

这真的很奇怪,因为该卡有 15.90 GiB,当只保留和分配少量时,只有 128.75 MiB 可用。

有什么原因可能导致它吗?你有什么建议我可以调试它吗?

4

0 回答 0