问题标签 [horovod]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
39 浏览

tensorflow - 将多个 GPU 与 Horovod 一起使用是否正常?

我按照以下教程通过修改 run_classifier.py 和 optmization.py 为 bert 训练启用了多个 GPU:

https://lambdalabs.com/blog/bert-multi-gpu-implementation-using-tensorflow-and-horovod-with-code/#demo

然后我跑了:

该命令运行良好,但我不确定是否真的使用了多个 gpu,可能没有,因为 nvidia-smi 显示只使用了一个 GPU,但在“顶部”输出中它确实显示了我的“mgpu_run_classifier”的 2 个实例.py”正在运行。我怀疑某处发生了一些问题。

0 投票
1 回答
61 浏览

python - 使用 Tensorflow 1.X 的 Horovod 局部梯度聚合

我正在尝试使用 Horovod 在不同的服务器上分发训练 GPU。按照这里的建议。

我想实现局部梯度聚合。在解释中,修改看起来很容易optimizer = hvd.DistributedOptimizer(opt, backward_passes_per_step=4)
但是尝试在我的示例模型中使用它会导致以下错误。

我使用的是原生 TensorFlow 1.15,而不是 keras 或最新的 tensorflow 版本。

有一个可行的例子吗?或者有人知道如何实现它?

0 投票
0 回答
59 浏览

tensorflow - 使用 MPI 的 Horovod,在 kubernetes 上

我正在尝试运行以下命令以使用工作人员:

出于某种原因,它只能在localhost. 似乎 MPI 根本不使用工人。

这里有什么见解吗?我应该如何让主 pod 使用 Kubernetes 中的工作人员?

环境:

  • 框架:TensorFlow

  • 框架版本:v2

  • 霍洛沃德版本:0.19.5

  • MPI 版本:4.0.0

  • 蟒蛇版本:3.6.9

  • 操作系统和版本:Linux Ubuntu 18

  • 海合会版本:7.5

  • CMake 版本:3.10.2

0 投票
0 回答
211 浏览

tensorflow - 运行 Horovod 训练作业,遇到这个错误:只有秩的子集在提交张量,这会导致死锁

一个或多个张量已提交以按等级子集减少、收集或广播,并且正在等待剩余等级超过 60 秒。这可能表明不同的 rank 试图提交不同的张量,或者只有 rank 的子集在提交张量,这将导致死锁。

0 投票
0 回答
256 浏览

python - Py4JNetworkError:尝试连接到 Java 服务器时发生错误

我正在做一个涉及 Horovod 的项目。我在培训期间添加了额外的记录代码。Afaik,培训不在驱动程序或执行程序中进行。Horovod 启动了自己的培训流程。

执行代码失败并出现异常:Py4JNetworkError:尝试连接到 Java 服务器时发生错误。

在下面找到完整的错误堆栈:

我已验证端口是否正确。

0 投票
1 回答
214 浏览

azure - 从 dockerfile 构建 Azure 机器学习环境 (tensorflow) 失败

我正在尝试使用 opencv 创建基于 TF 2.4 策划环境的新环境。对 opencv 的支持是唯一的区别。我修改了 dockerfile 以包含 opencv,如下所示:

但是 horovod 无法构建 tensorflow 并显示以下错误消息:

我是 Azure-ml 的新手,我发现文档有点不清楚。我还尝试通过执行 conda_dep.add_pip_package("opencv-python") 将 opencv-python 添加到现有的策划环境中。结果是一样的。

0 投票
0 回答
30 浏览

tensorflow - 多处理读取tfrecord的DataLossError

我从MNIST 图像数据集编写 tfrecord并将 tfrecord 转换为 tf.data.dataset。运行“python3 tfrecord1.py”是正常的。但是,运行“mpirun -np 2 python3 tfrecord1.py”时发生了 DataLossError

也许我的代码有问题。

我的计算环境:ubuntu 20.04, tensorflow 2.6.0, horovod 0.23, 32 CPUs, No GPU

threcord1.py

在此处输入图像描述