2

tf.distribute.experimentalCentralStorageStrategy指定不镜像变量,而是将它们放置在 CPU 上,并且在所有 GPU 上复制操作

如果我有一个不适合任何单个 GPU 的非常大的模型,这可能是一个解决方案,因为变量存储在 CPU 上?我知道会有网络开销,这很好。

Youtube 上的这个官方 TF 教程指出,这可用于处理不适合一个 GPU 的“大型嵌入”。大变量和激活也可能是这种情况吗?

在官方文档中,它声明“如果只有一个 GPU,那么所有变量和操作都将放在那个 GPU 上”。如果我只使用 1 个 GPU,即使在 CPU 而不是 GPU 上存储大型变量(例如嵌入)可能非常有价值,但似乎 CentralStorageStrategy 会被自动禁用,因为可能不存在有足够内存的 GPU 来适应它设备。这是设计疏忽还是预期行为?

4

0 回答 0