问题标签 [distributed-training]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
226 浏览

python - 在本地 gpu 和 colab gpu 上进行分布式训练

我想微调 ALBERT。

我看到可以使用 tensorflow 在多个 GPU 上分配神经网络训练:https ://www.tensorflow.org/guide/distributed_training

我想知道是否可以在我的笔记本电脑的 gpu 和 colab gpu 之间分配微调?

0 投票
1 回答
16 浏览

distributed-training - 鉴于技术会议被取消,您如何接受培训?

只是帮助弄清楚如何让我公司的软件工程师接受培训。在可预见的未来,鉴于在家工作和/或技术会议被取消,您将如何接受培训?

0 投票
1 回答
172 浏览

python - tf.data 与 tf.keras.preprocessing.image.ImageDataGenerator

我正在阅读有关有效加载大数据的不同技术。与 tf.keras.preprocessing.imageImageDataGenerator 相比,tf.data 似乎表现良好。

据我所知,tf.data 使用 CPU 流水线来高效地加载数据并对其进行处理,从而使模型训练连续且快速。但我不明白这两种技术有何不同以及以何种方式不同。如果有人能解释这一点,我将不胜感激。

0 投票
0 回答
77 浏览

tensorflow - 如何使用 Horovod 在分布式环境中运行 TensorFlow 2?

我已成功设置分布式环境并使用Horovod运行示例。而且我也知道,如果我想在分布式设置中运行 TensorFlow 1 上的基准测试,例如 4 个节点,按照教程,提交应该是:

但现在我想运行 TensorFlow 2官方模型,例如 BERT 模型。我应该使用什么命令?

0 投票
1 回答
88 浏览

python - `tf.distribute.MirroredStrategy` 对训练结果有影响吗?

我不明白这是否MirroredStrategy对训练结果有任何影响。

我的意思是:在单个设备上训练的模型是否与在多个设备上训练的模型相同?

我认为它应该是同一个模型,因为它只是梯度的分布式计算,不是吗?

0 投票
1 回答
598 浏览

tensorflow - 在多个设备上训练

我知道 TensorFlow 提供分布式训练 API,可以在多个设备上训练,例如多个 GPU、CPU、TPU 或多台计算机(工作人员)遵循此文档:https ://www.tensorflow.org/tutorials/distribute/multi_worker_with_keras

但我有一个问题,这是任何可能的方式来分割火车使用数据并行训练跨多台机器(包括移动设备和计算机设备)?

如果您有任何教程/说明,我将不胜感激。

0 投票
1 回答
92 浏览

tensorflow - 动态 PS-Worker 方案不能在集群传播模式下共享参数

我正在尝试使用 ps-worker 方案构建一个可扩展的分布式训练系统。在这个方案中,每个 PS 都有关于所有 PS 的信息,并且 PS 的数量保持不变。至于每一个工人,它只知道自己和所有的PS。

使用 Tensorflow 集群传播方法,我可以同时启动 PS 和 worker 来保持分布式训练循环的活跃。但我发现每个工人都有自己的训练过程,并没有与其他人共享数据结构。

这是一个演示:

演示.py

启动.sh

结果 两个工作进程成功启动并完成。但是var有不同的值:

是否可以让工作人员在集群传播模式下共享密集和稀疏的值?我认为这是动态管理集群的一个重要特性。

0 投票
0 回答
151 浏览

docker - 在不传递标志的情况下修改 ptrace

我正在使用 MPI 在某个平台上运行一些分布式培训。在培训期间,我看到了大量的印刷品,例如:

经过一番调查,我发现它是由默认的 docker Seccomp 引起的。如果我用--cap-add=SYS_PTRACE那些大量打印运行 docker 就会消失。

但是,我无法添加标志,docker run因为我无法控制 docker 图像的启动:它们是由平台启动的。那么,有没有办法修改ptraceDockerfile 或 docker 容器内的设置?

另一个发现是运行 MPIbtl_vader_single_copy_mechanism none会禁用这些打印,但性能会受到损害,所以这不是一个选项。

任何帮助将不胜感激!

0 投票
0 回答
101 浏览

deep-learning - Horovod 在 GPU 集群上用于深度学习模型的简单分布式训练 python 程序

我正在尝试 在 databricks GPU 集群(带有 1 个驱动程序和 2 个工作人员)上运行一些示例 python3 代码https://docs.databricks.com/applications/deep-learning/distributed-training/horovod-runner.html 。

数据砖环境:

它用于分布式深度学习模型训练。

一开始我只是尝试了一个非常简单的例子:

但是,该命令一直在运行,没有任何进展。

我是否错过了什么或需要设置一些东西才能让它工作?

谢谢

0 投票
1 回答
345 浏览

python - 有没有办法在多台笔记本电脑上训练 ML 模型?

我有两台笔记本电脑,想将两台笔记本电脑都用于 DL 模型训练。我在分布式系统方面没有任何经验,想知道是否可以同时使用两台笔记本电脑的处理能力来训练一个模型。怎么样tf.distribute.experimental.ParameterServerStrategy?会有用吗?