我正在尝试运行以下命令以使用工作人员:
horovodrun -np 3 python3 tensorflow_mnist.py
出于某种原因,它只能在localhost
. 似乎 MPI 根本不使用工人。
这里有什么见解吗?我应该如何让主 pod 使用 Kubernetes 中的工作人员?
环境:
框架:
TensorFlow
框架版本:
v2
霍洛沃德版本:
0.19.5
MPI 版本:
4.0.0
蟒蛇版本:
3.6.9
操作系统和版本:
Linux Ubuntu 18
海合会版本:
7.5
CMake 版本:
3.10.2