0

我在将YOLOv5训练到具有 NVIDIA Tesla K80 的 p2.xlarge aws ec2 实例中时遇到了很大的速度问题。

我意识到训练过程甚至比拥有 NVIDIA RTX 2060 的台式电脑还要慢。所以我决定对一些图像进行推断,结果如下:

我的 RTX 2060: 在此处输入图像描述

AWS EC2 特斯拉 K80: 在此处输入图像描述

所以我决定尝试一个 p2.8xlarge 实例来训练我的深度学习模型,结果很相似,因此我对相同的图像进行了推断,令我惊讶的是我得到了相似的结果。

AWC EC2 与 8 特斯拉 K80: 在此处输入图像描述

重要的是要记住,这个 p2.8xlarge 实例有 488 MB 内存 RAM 和 32 个 vCPU 内核和 8 个 Tesla K80,所以我的问题是:这个 p2.8xlarge 训练 YOLO 的速度怎么比我只有 64 MB 的 PC 桌面还要慢?内存 RAM 和 16 核?

有没有人遇到过同样的问题?请给我任何解决方案或提示?

最后,我在 PC 上训练了模型,但花费了太多时间。另一方面,云环境应该解决这些问题。

似乎我不是唯一发生这种情况的人:

4

1 回答 1

0

Tesla k80 很旧,没有张量核心。训练主要发生在 GPU 上,因此 CPU 和 RAM 并不会对其产生太大影响。K80 的速度确实更差,而且它很有用,因为它可以在双精度训练中产生大量的 FLOPS。

2060 也是 2 代架构......所以在速度方面它肯定会更好。

于 2021-10-22T02:53:40.757 回答