0

全部,
我正在尝试在 Azure 机器学习服务上使用 Horovod 训练分布式模型,如下所示。

estimator = TensorFlow(source_directory=script_folder,
                       entry_script='train_script.py',
                       script_params=script_params,
                       compute_target=compute_target_gpu_4,
                       conda_packages=['scikit-learn'],                       
                       node_count=2,                        
                       distributed_training=MpiConfiguration(),
                       framework_version = '1.13',
                       use_gpu=True
                      )
run = exp.submit(estimator)
  • 如何启用 Horovod 时间线?
  • 如何启用更详细的 MPI 跟踪以查看节点之间的通信?

谢谢。

4

1 回答 1

0

下面使用 SDK 中的 Tensorflow Estimator 类,将 Distributed_training 设置为 Mpi()。

在此处输入图像描述

https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/ml-frameworks/tensorflow/training/distributed-tensorflow-with-horovod/distributed-tensorflow-with-horovod.ipynb

另一个使用 Horovod 训练 genism 句子相似性模型的示例。 https://github.com/microsoft/nlp-recipes/blob/46c0658b79208763e97ae3171e9728560fe37171/examples/sentence_similarity/gensen_train.py

于 2020-05-05T05:14:46.877 回答