全部,
我正在尝试在 Azure 机器学习服务上使用 Horovod 训练分布式模型,如下所示。
estimator = TensorFlow(source_directory=script_folder,
entry_script='train_script.py',
script_params=script_params,
compute_target=compute_target_gpu_4,
conda_packages=['scikit-learn'],
node_count=2,
distributed_training=MpiConfiguration(),
framework_version = '1.13',
use_gpu=True
)
run = exp.submit(estimator)
- 如何启用 Horovod 时间线?
- 如何启用更详细的 MPI 跟踪以查看节点之间的通信?
谢谢。