问题标签 [horovod]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
tensorflow - 将多个 GPU 与 Horovod 一起使用是否正常?
我按照以下教程通过修改 run_classifier.py 和 optmization.py 为 bert 训练启用了多个 GPU:
然后我跑了:
该命令运行良好,但我不确定是否真的使用了多个 gpu,可能没有,因为 nvidia-smi 显示只使用了一个 GPU,但在“顶部”输出中它确实显示了我的“mgpu_run_classifier”的 2 个实例.py”正在运行。我怀疑某处发生了一些问题。
python - 使用 Tensorflow 1.X 的 Horovod 局部梯度聚合
我正在尝试使用 Horovod 在不同的服务器上分发训练 GPU。按照这里的建议。
我想实现局部梯度聚合。在解释中,修改看起来很容易optimizer = hvd.DistributedOptimizer(opt, backward_passes_per_step=4)
。
但是尝试在我的示例模型中使用它会导致以下错误。
我使用的是原生 TensorFlow 1.15,而不是 keras 或最新的 tensorflow 版本。
有一个可行的例子吗?或者有人知道如何实现它?
tensorflow - 使用 MPI 的 Horovod,在 kubernetes 上
我正在尝试运行以下命令以使用工作人员:
出于某种原因,它只能在localhost
. 似乎 MPI 根本不使用工人。
这里有什么见解吗?我应该如何让主 pod 使用 Kubernetes 中的工作人员?
环境:
框架:
TensorFlow
框架版本:
v2
霍洛沃德版本:
0.19.5
MPI 版本:
4.0.0
蟒蛇版本:
3.6.9
操作系统和版本:
Linux Ubuntu 18
海合会版本:
7.5
CMake 版本:
3.10.2
tensorflow - 运行 Horovod 训练作业,遇到这个错误:只有秩的子集在提交张量,这会导致死锁
一个或多个张量已提交以按等级子集减少、收集或广播,并且正在等待剩余等级超过 60 秒。这可能表明不同的 rank 试图提交不同的张量,或者只有 rank 的子集在提交张量,这将导致死锁。
python - Py4JNetworkError:尝试连接到 Java 服务器时发生错误
我正在做一个涉及 Horovod 的项目。我在培训期间添加了额外的记录代码。Afaik,培训不在驱动程序或执行程序中进行。Horovod 启动了自己的培训流程。
执行代码失败并出现异常:Py4JNetworkError:尝试连接到 Java 服务器时发生错误。
在下面找到完整的错误堆栈:
我已验证端口是否正确。
azure - 从 dockerfile 构建 Azure 机器学习环境 (tensorflow) 失败
我正在尝试使用 opencv 创建基于 TF 2.4 策划环境的新环境。对 opencv 的支持是唯一的区别。我修改了 dockerfile 以包含 opencv,如下所示:
但是 horovod 无法构建 tensorflow 并显示以下错误消息:
我是 Azure-ml 的新手,我发现文档有点不清楚。我还尝试通过执行 conda_dep.add_pip_package("opencv-python") 将 opencv-python 添加到现有的策划环境中。结果是一样的。
tensorflow - 多处理读取tfrecord的DataLossError
我从MNIST 图像数据集编写 tfrecord并将 tfrecord 转换为 tf.data.dataset。运行“python3 tfrecord1.py”是正常的。但是,运行“mpirun -np 2 python3 tfrecord1.py”时发生了 DataLossError
也许我的代码有问题。
我的计算环境:ubuntu 20.04, tensorflow 2.6.0, horovod 0.23, 32 CPUs, No GPU
threcord1.py