客观的
了解如何在 Metaflow 中使用 GPU。
背景
与如何使用 GPU #250 的文档/说明中一样,有几个关于如何使用 GPU 的讨论。
它@resources(GPU=2)负责 GPU 分配,但有一些讨论说明了带有 GPU 的 AWS EC2 实例类型,例如 P 或 G 实例,也是 AMI 的类型。
据我了解,Metaflow 使用的是使用 ECS/Docker 的 AWS 批处理。然后,docker 实例需要 docker 容器(NVIDIA Container Toolkit)内的 GPU 驱动程序才能访问 GPU。
因此,不清楚 Metaflow 如何管理 GPU,以及使用 GPU 所需的先决条件、配置和编码是什么。
问题
- 我们是否需要使用已在 EC2 实例(docker 主机)级别预先配置 GPU 驱动程序的特定 AMI?
- 我们是否需要在 GPU 上使用特定的 EC2 类型(P3、P4、G3、G4、INF1)?或者 Metaflow 是否使用 AWS Elastic Inference 等服务来动态分配 GPU,即使 Batch/ECS EC2 实例没有 GPU?
- Metaflow 是否会在 docker 容器内安装 GPU 驱动程序或在内部使用 NVIDIA Container Toolkit?
- @resource 是我们在 Python 代码中使用 GPU 所需的全部内容吗?