tensorflow - tensorflow convnet 是否仅在多个 GPU 上复制模型？

Question

我目前正在运行一个用于图像识别的 Tensorflow 卷积网络，并且我正在考虑购买新的 GPU 以支持更复杂的图形、批量大小和输入维度。我读过这样的帖子，不建议使用 AWS GPU 实例来训练 convnet，但总是欢迎更多意见。

我已经阅读了 Tensorflow 的指南'Training a Model Using Multiple GPU Cards'，并且该图似乎在 GPU 之间重复。我想知道这是在 Tensorflow convnet 中使用并行 GPU 的唯一方法吗？

我之所以问这个问题是因为如果 Tensorflow 只能跨多个 GPU 复制图形，这意味着每个 GPU 必须至少具有我的模型一批所需的内存大小。（例如，如果所需的最小内存大小为 5GB，则两张 4GB 的卡将无法完成这项工作）

先感谢您！

score 0 · Accepted Answer

不，绝对可以在不同的 GPU 上使用不同的变量。对于您声明的每个变量和每个层，您都可以选择在哪里声明变量。

在特定情况下，您可能希望使用多个 GPU 来复制您的模型，只是为了增加其batch_size训练参数以更快地训练，您仍然需要使用共享参数的概念显式构建您的模型并管理这些参数如何通信。

1 回答 1