首先,我还是 tensorflow 的新手。我正在使用 v0.9 并尝试使用我们拥有的机器中安装的 2 个 GPU。所以,这就是正在发生的事情:
- 当我
training data
在机器上启动脚本时,它只能在 2 个 GPU 中的一个上工作。它默认采用第一个gpu:0/
。 - 当我启动另一个
training data
脚本以在第二个 GPU 上运行(在进行所需的更改之后with tf.device..
)同时保持第一个进程在第一个 GPU 上运行时,tensorflow 会终止第一个进程并仅使用第二个 GPU 来运行第二个进程。所以似乎tensorflow一次只允许一个进程?
我需要的是:能够在同一training data
台机器上安装的 2 个不同 GPU 上为 2 个不同模型启动两个单独的脚本。在这种情况下我错过了什么吗?这是预期的行为吗?我应该在本地机器上通过分布式张量流吗?