0

我们目前正在开展一个涉及 Pytorch Lightning 培训的项目。该代码通过 DistributedDataParallel (DDP) 使用 GPU。目前,它在单台 Vertex AI 训练作业和/或笔记本上运行时运行良好。

但是当我们尝试多节点训练(涉及主池和工作池)时,训练不会启动,因为代码只是在主节点上运行,而不使用工作机器。这是训练的代码 -

trainer = pl.Trainer(
        max_epochs=num_epochs,
        weights_summary='full',
        callbacks=callbacks,
        accelerator='ddp',
        gpus=-1,
        num_sanity_val_steps=0,
        limit_train_batches=limit_train_batches,
        limit_val_batches=limit_val_batches,
    )

Q1 - 有没有办法在训练作业中调用工作节点?


我们还偶然发现了一个名为 Ray Lightning 的模块,它可以帮助实现相同的目标。但是相同的实现会导致一些错误......尽管在代码中指定了以下命令,但它没有被初始化 -

os.system('ray up cluster.yml')
ray.init(address="auto")
trainer = pl.Trainer(
        max_epochs=num_epochs,
        weights_summary='full',
        callbacks=callbacks,
        accelerator='ddp',
        plugins=[RayPlugin(num_workers=num_workers, use_gpu=use_gpu)],
        num_sanity_val_steps=0,
        limit_train_batches=limit_train_batches,
        limit_val_batches=limit_val_batches,
    )

Q2 - 当前问题的任何可能的修复?

提前致谢...

4

1 回答 1

0

我遇到了类似的问题,我的 0 级 pod 正在训练和记录,但非 0 级的 pod 只是挂起。我 ssh 进入非 0 级 pod 并运行“nvidia-smi”,它们都在使用他们的 GPU。这可能意味着他们只是因为没有记录而似乎没有在训练。我不能确定这一点。可能值得为您的系统检查相同的内容?

ps我的系统是部署在内部kubernetes集群上的pytorch-lightning

于 2021-12-15T13:03:00.163 回答