我正在尝试使用 2 个 nvidia docker 进行分布式学习。当我尝试使用 2 台主机时,它不起作用。我该如何解决这个问题?
我试过这个命令:
horovodrun -np 3 -H localhost:1 -p 12345 python keras_mnist_advanced.py
它有效,但是当我尝试时:
horovodrun -np 3 -H localhost:1,192.168.0.20:2 -p 12345 python keras_mnist_advanced.py
我收到了这个错误:
启动 horovodrun 任务功能不成功:horovod.run.common.util.network.NoValidAddressesFound:无法连接到任何地址上的 horovodrun 任务服务 #1:{'lo': [('127.0.0.1', 30871 )], 'docker0': [('172.17.0.1', 30871)], 'enp0s31f6': [('192.168.0.20', 30871)]}