我一直在 docker 中同时使用 TensorFlow 和 PyTorch 来使用 Horovod,正如 Horovod docker 中所解释的,在固定数量的容器下,每件事都可以正常工作
我已经检查了 Horovod Elastic Demos Horovod 示例,但它们没有显示如何在运行时更改工作人员的数量。
我需要知道如何在运行时增加或减少工作人员的数量?
我一直在 docker 中同时使用 TensorFlow 和 PyTorch 来使用 Horovod,正如 Horovod docker 中所解释的,在固定数量的容器下,每件事都可以正常工作
我已经检查了 Horovod Elastic Demos Horovod 示例,但它们没有显示如何在运行时更改工作人员的数量。
我需要知道如何在运行时增加或减少工作人员的数量?
为此,您需要一个特定于 Docker 的主机发现,它告诉 Elastic Horovod 所有可用容器。一种通用的方法是通过使用horovodrun
和提供主机发现脚本--host-discovery-script
。调用时,脚本会返回可用主机的列表。请参阅Elastic Horovod文档的使用 horovodrun 运行部分。
在不久的将来,Horovod 中将内置服务提供商特定的主机发现,因此用户无需为通用提供商实现脚本。