问题标签 [gcp-ai-platform-training]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
50 浏览

google-cloud-platform - Google AI Platform VM 似乎不包含官方模型存储库

我正在按照教程图像对象检测自定义数据集 — TensorFlow 2 对象检测 API使用 Google gcloud 启动训练任务。但是任务因错误而终止

为什么 Google AI Platform VM 不包含官方模型仓库?

0 投票
1 回答
91 浏览

google-cloud-platform - 使用 Cloud Run 运行 AI Platform Notebook

我在 AI Platform 中generate_trends.py存储了一个带有实例名称的 python 脚本python-20201013-153823作为笔记本。使用 Flask 直接从云运行该脚本的最佳方式是什么?

0 投票
0 回答
256 浏览

python - AI平台(谷歌云计算)中的pip3安装错误

我最近一直在尝试向 GCP 的 AI 平台提交训练任务。

我使用以下代码成功提交了训练我的 pytorch 变压器模型的任务:

在 gcloud 日志记录中,我不断收到此错误:

认为这与我的 setup.py 文件有关,我也在那里检查了我的代码:

我还运行了 python setup.py sdist 以确保代码可以为我的包创建正确的 tar.gz 文件。

我检查了我的 python 版本,并确保将我的 pip 更新到最新版本。关于如何克服这个错误的任何帮助都会很棒。

更新:这不是 gcloud 问题。当我生成我的 requirements.txt 文件时,一些 conda 要求会潜入文件中。不幸的是,gcloud 训练作业记录器没有显示 dockerfile 中运行命令之外的堆栈跟踪,因此需要一段时间才能查明这一点。

0 投票
0 回答
298 浏览

tensorflow - 训练对象检测模型时,张量板图像选项卡上没有显示边界框是否正常?

我正在使用 Tensorflow 训练对象检测模型(从 ssd_mobilenet_v2_320x320_coco17_tpu-8 进行微调)并使用 tensorboard 监控训练任务。我期待在张量板的图像选项卡中显示的图像会显示一个边界框。我看到的只是图片上方画有橙色线的图像(与我期望的边界框相同的橙色)。我错过了什么吗?当我说是否应该出现边界框时我是对的吗?我看到的图片已加入。非常感谢任何帮助。

在此处输入图像描述

0 投票
0 回答
264 浏览

tensorflow - GCP AI Platform 作业卡住

我在 AI Platform 上运行一个作业,它运行了一个多小时,没有任何进展、没有结果、没有日志(只有少数日志显示它正在运行)

这是我使用的区域、机器类型和 gpus:

人工智能平台工作 人工智能平台工作

这项工作只有很少的日志 这项工作只有很少的日志

我正在训练的模型很大并且使用大量内存。这项工作只是挂在那里,没有任何进展、日志或错误。但我注意到它在 GCP 上消耗了 12.81 ML 单位。通常,如果 GPU 内存不足,它会抛出“OOM/resourceExhausted 错误”。没有日志,我不知道那里出了什么问题。

我用较小的输入尺寸运行了一项不同的工作,并在 12 分钟内成功完成:

成功的工作 成功的工作

此外,我在训练过程中使用 tf.MirroredStrategy 以便它可以分布在 GPU 上。

对此有什么想法吗?

0 投票
0 回答
79 浏览

tensorflow - Tensorflow - 解释 tf.estimator.ProfilerHook "_Send" op

我有一个在 Google AI 平台上训练的深度 CNN/RNN。我使用tf.distribute.MirroredStrategy. 我最近将我的运行时版本从 1.13 升级到 1.15,我的训练速度比以前慢了 2 倍以上。我读到它tf.estimator.ProfilerHook可以用来识别性能瓶颈。所以我收集了分析信息并将其呈现在chrome://tracing. 我懂了

分析截图

_Send一个训练步骤在这些操作上花费了整整 1 秒。这是什么?我找不到有关操作的任何文档或为什么它在我的图表中。这是什么意思?

0 投票
2 回答
511 浏览

google-cloud-platform - Google AI Platform 培训 - 等待作业完成

我已经构建了一个包含许多并行进程的 AI Platform 管道。每个进程都会在 AI Platform 上启动一个训练作业,如下所示:

然后它必须等待作业完成才能进入下一步。为此,我尝试将参数添加--stream-logs到上述命令中。通过这种方式,它会流式传输所有日志,直到作业完成。

问题是,有这么多并行进程,我用完了获取日志的请求:

但我不需要实际流式传输日志,我只需要一种方法来告诉进程“等待”直到训练工作完成。有没有更聪明、更简单的方法来做到这一点?

0 投票
1 回答
140 浏览

python - Google AI 平台无法写入云存储

在 Google AI Platform 上运行tensorflow-cloud作业,作业的入口点如下:

作业成功完成,在日志中打印“hello world”。

存储桶和作​​业都在同一个区域中。

但我在 Cloud Storage 中找不到该文件。它不在那里。我跑了一些其他的测试,tf.io.gfile.listdir然后我写了一个新文件,然后tf.io.gfile.listdir我打印了之前和之后,似乎添加了一个文件,但是当我打开云存储时,我在那里找不到它。还能够从存储中读取文件。

我没有收到任何权限错误,正如官方文档所说,AI Platform 已经拥有读取/写入云存储的权限。

这是我的main.py文件:

这是我可以重现问题的最小版本。

0 投票
1 回答
308 浏览

tensorflow2.0 - GCP AI平台如何有效使用TFRC程序

我正在尝试在 GCP 的 AI 平台作业服务中运行超参数调整作业,这是我批准的Tensorflow Research Cloud程序

  • 区域 us-central1-f 中的 100 个抢占式 Cloud TPU v2-8 设备
  • 区域 us-central1-f 中的 20 个按需 Cloud TPU v2-8 设备
  • 5 个按需 Cloud TPU v3-8 设备,位于 europe-west4-a 区域

我已经在 Tensorflow 2 上构建了一个自定义模型,我想运行指定确切区域的作业,以利用 TFRC 程序和 AI 平台作业服务;现在我有一个 YAML 配置文件,如下所示:

理论上,如果我在单独的 TPU 实例中运行 16 个并行作业,每个作业应该可以工作,但是由于请求超出 TPU_V2 的配额而返回错误

错误:(gcloud.ai-platform.jobs.submit.training)RESOURCE_EXHAUSTED:项目################## 的配额失败。16 个并行运行对 128 个 TPU_V2 加速器的请求超过了允许的最大值:0 A100、0 TPU_V2_POD、0 TPU_V3_POD、16 TPU_V2、16 TPU_V3、2 P4、2 V100、30 K80、30 P100、6 T4 加速器。

然后我将 maxParallelTrials 减少到只有 2 并开始工作,这证实了上面的错误消息,配额是按 TPU 芯片计算的,而不是按 TPU 实例计算的。

因此,我认为,也许我完全误解了 TFRC 计划的批准配额,然后我继续检查作业是否使用 us-central1-f 区域,但结果发现使用了不需要的区域:

-tpu_node={“项目”:“p091c8a0a31894754-tp”,“区域”:“us-central1-c”,“tpu_node_name”:“cmle-training-1597710560117985038-tpu”}”

这种行为不允许我有效地使用免费批准的配额,如果我理解正确,在 us-central1-c 中运行的作业正在占用我的帐户,但不使用免费资源。因此,我想知道是否有某种方法可以在 AI 平台作业中设置区域,并且可以传递一些标志来使用可抢占 TPU。

0 投票
1 回答
196 浏览

python - 如何将我的训练数据上传到谷歌进行 Tensorflow 云训练

我想在 gcp 中训练我的 keras 模型。

我的代码:

这就是我加载数据集的方式

这就是我触发云训练的方式

就在我的模型之前,这应该没什么区别

一切正常,正在为我的模型创建 docker 映像,但未上传USDJPY.fx5.csv文件。所以我得到文件未找到错误

将自定义文件加载到培训作业中的正确方法是什么?我将火车数据上传到 s3 存储桶,但我无法告诉谷歌去那里看。