6

我在 AI Platform 上运行一个作业,它运行了一个多小时,没有任何进展、没有结果、没有日志(只有少数日志显示它正在运行)

这是我使用的区域、机器类型和 gpus:

  "region": "us-central1",
  "runtimeVersion": "2.2",
  "pythonVersion": "3.7",
  "masterConfig": {
    "acceleratorConfig": {
      "count": "8",
      "type": "NVIDIA_TESLA_K80"
    }
  }

人工智能平台工作 人工智能平台工作

这项工作只有很少的日志 这项工作只有很少的日志

我正在训练的模型很大并且使用大量内存。这项工作只是挂在那里,没有任何进展、日志或错误。但我注意到它在 GCP 上消耗了 12.81 ML 单位。通常,如果 GPU 内存不足,它会抛出“OOM/resourceExhausted 错误”。没有日志,我不知道那里出了什么问题。

我用较小的输入尺寸运行了一项不同的工作,并在 12 分钟内成功完成:

成功的工作 成功的工作

此外,我在训练过程中使用 tf.MirroredStrategy 以便它可以分布在 GPU 上。

对此有什么想法吗?

4

0 回答 0