amazon-web-services - 在 Amazon EC2 中训练深度学习模型非常慢

Question

我在将YOLOv5训练到具有 NVIDIA Tesla K80 的 p2.xlarge aws ec2 实例中时遇到了很大的速度问题。

我意识到训练过程甚至比拥有 NVIDIA RTX 2060 的台式电脑还要慢。所以我决定对一些图像进行推断，结果如下：

我的 RTX 2060：

AWS EC2 特斯拉 K80：

所以我决定尝试一个 p2.8xlarge 实例来训练我的深度学习模型，结果很相似，因此我对相同的图像进行了推断，令我惊讶的是我得到了相似的结果。

AWC EC2 与 8 特斯拉 K80：

重要的是要记住，这个 p2.8xlarge 实例有 488 MB 内存 RAM 和 32 个 vCPU 内核和 8 个 Tesla K80，所以我的问题是：这个 p2.8xlarge 训练 YOLO 的速度怎么比我只有 64 MB 的 PC 桌面还要慢？内存 RAM 和 16 核？

有没有人遇到过同样的问题？请给我任何解决方案或提示？

最后，我在 PC 上训练了模型，但花费了太多时间。另一方面，云环境应该解决这些问题。

似乎我不是唯一发生这种情况的人：

score 0 · Accepted Answer

Tesla k80 很旧，没有张量核心。训练主要发生在 GPU 上，因此 CPU 和 RAM 并不会对其产生太大影响。K80 的速度确实更差，而且它很有用，因为它可以在双精度训练中产生大量的 FLOPS。

2060 也是 2 代架构......所以在速度方面它肯定会更好。

1 回答 1