machine-learning - GPU 在数据并行训练的参数服务器上是否高效？

Question

在数据并行训练上，我猜 GPU 实例对参数服务器不一定有效，因为参数服务器只保留值并且不运行任何计算，例如矩阵乘法。

因此，我认为以下Cloud ML Engine的示例配置（参数服务器使用 CPU，其他使用 GPU）具有良好的性价比：

trainingInput:
  scaleTier: CUSTOM
  masterType: standard_gpu
  workerType: standard_gpu
  parameterServerType: standard_cpu
  workerCount: 3
  parameterServerCount: 4

是对的吗？

score 0 · Accepted Answer

您的假设是一个合理的经验法则。也就是说，Parag 指出了一篇论文，该论文描述了可以在参数服务器中利用 GPU 的模型，因此参数服务器并不总是能够利用 GPU。

一般来说，您可能想在短时间内尝试两者，看看吞吐量是否有所提高。

如果您对实际分配给参数服务器的操作有任何疑问，您可以记录设备放置。如果看起来 ops 位于可以从 GPU 中受益的参数服务器上（并且假设它们确实应该在那里），那么您可以继续尝试在参数服务器中使用 GPU。

machine-learning - GPU 在数据并行训练的参数服务器上是否高效？

1 回答 1

Related

Reference