我们目前正在开展一个涉及 Pytorch Lightning 培训的项目。该代码通过 DistributedDataParallel (DDP) 使用 GPU。目前,它在单台 Vertex AI 训练作业和/或笔记本上运行时运行良好。
但是当我们尝试多节点训练(涉及主池和工作池)时,训练不会启动,因为代码只是在主节点上运行,而不使用工作机器。这是训练的代码 -
trainer = pl.Trainer(
max_epochs=num_epochs,
weights_summary='full',
callbacks=callbacks,
accelerator='ddp',
gpus=-1,
num_sanity_val_steps=0,
limit_train_batches=limit_train_batches,
limit_val_batches=limit_val_batches,
)
Q1 - 有没有办法在训练作业中调用工作节点?
我们还偶然发现了一个名为 Ray Lightning 的模块,它可以帮助实现相同的目标。但是相同的实现会导致一些错误......尽管在代码中指定了以下命令,但它没有被初始化 -
os.system('ray up cluster.yml')
ray.init(address="auto")
trainer = pl.Trainer(
max_epochs=num_epochs,
weights_summary='full',
callbacks=callbacks,
accelerator='ddp',
plugins=[RayPlugin(num_workers=num_workers, use_gpu=use_gpu)],
num_sanity_val_steps=0,
limit_train_batches=limit_train_batches,
limit_val_batches=limit_val_batches,
)
Q2 - 当前问题的任何可能的修复?
提前致谢...