1

我了解 TensorFlow 支持分布式训练。

我找到num_clones了,train_image_classifier.py这样我就可以在本地使用多个 GPU。

python $TF_MODEL_HOME/slim/train_image_classifier.py \
--num_clones=2
--train_dir=${TRAIN_DIR} \
--dataset_name=imagenet \
--dataset_split_name=train \
--dataset_dir=${DATASET_DIR} \
--model_name=vgg_19 \
--batch_size=32 \
--max_number_of_steps=100

如何在不同主机上使用多个 GPU?

4

1 回答 1

1

您需要使用--worker_replicas=<no of hosts>相同数量的 GPU 在多个主机上进行训练。除此之外,如果您在多台主机上进行训练,则必须配置--task--num_ps_tasks、 。--sync_replicas--replicas_to_aggregate

我建议你试试Horovod。我打算在几天内试一试。

于 2017-11-29T04:07:57.713 回答