我在 4x RTX 3090 上运行使用 TensorFlow 1.x 编写的模型,与1x RTX 3090 相比,启动训练需要很长时间。尽管随着训练的开始,它在 4x 中比在 1x 中更早完成. 我在两个 GPU 中都使用了 CUDA 11.1 和 TensorFlow 1.14。
其次,当我使用 1x RTX 2080ti、CUDA 10.2 和 TensorFlow 1.14 时,与 1x RTX 3090 和 11.1 CUDA 和 Tensorflow 1.14 相比,开始训练所需的时间更少。暂定,在 1x RTX 2080ti 中需要 5 分钟,在 1x RTX 3090 中需要 30-35 分钟,在 4x RTX 3090 中需要 1.5 小时来开始对其中一个数据集的训练。
如果有人可以帮助我解决此问题,我将不胜感激。
我在 2080ti 和 3090 机器上使用 Ubuntu 16.04、Core™ i9-10980XE CPU 和 32 GB 内存。
编辑:根据this ,我发现TF在Ampere架构GPU中的启动时间很长,但我仍然不清楚是否是这种情况;并且,如果是这种情况,是否存在任何解决方案?