我希望使用 Google Cloud 的新服务 - 统一 AI 平台来训练模型。为此,我使用config.yaml
如下所示:
workerPoolSpecs:
workerPoolSpec:
machineSpec:
machineType: n1-highmem-16
acceleratorType: NVIDIA_TESLA_P100
acceleratorCount: 2
replicaCount: 1
pythonPackageSpec:
executorImageUri: us-docker.pkg.dev/cloud-aiplatform/training/tf-gpu.2-4:latest
packageUris: gs://path/to/bucket/unified_ai_platform/src_dist/trainer-0.1.tar.gz
pythonModule: trainer.task
workerPoolSpec:
machineSpec:
machineType: n1-highmem-16
acceleratorType: NVIDIA_TESLA_P100
acceleratorCount: 2
replicaCount: 2
pythonPackageSpec:
executorImageUri: us-docker.pkg.dev/cloud-aiplatform/training/tf-gpu.2-4:latest
packageUris: gs://path/to/bucket/unified_ai_platform/src_dist/trainer-0.1.tar.gz
pythonModule: trainer.task
但是对于分布式训练,我无法理解如何workerPoolSpec
在这个文件中传递多个 s。提供的示例yaml 文件没有考虑我可以提供多个workerPoolSpec
s 的情况。
该示例的文档还说“您可以指定多个工作程序池规范以创建具有多个工作程序池的自定义作业”。
在这方面的任何帮助将不胜感激。