“gcp-ai-platform-training”的相关标签问题

0 投票

0 回答

50 浏览

google-cloud-platform - Google AI Platform VM 似乎不包含官方模型存储库

我正在按照教程图像对象检测自定义数据集 — TensorFlow 2 对象检测 API使用 Google gcloud 启动训练任务。但是任务因错误而终止

为什么 Google AI Platform VM 不包含官方模型仓库？

2020-10-26T21:33:07.457

0 投票

1 回答

91 浏览

google-cloud-platform - 使用 Cloud Run 运行 AI Platform Notebook

我在 AI Platform 中generate_trends.py存储了一个带有实例名称的 python 脚本python-20201013-153823作为笔记本。使用 Flask 直接从云运行该脚本的最佳方式是什么？

google-cloud-platform google-cloud-run gcp-ai-platform-training

2020-10-29T16:11:44.567

0 投票

0 回答

256 浏览

python - AI平台（谷歌云计算）中的pip3安装错误

我最近一直在尝试向 GCP 的 AI 平台提交训练任务。

我使用以下代码成功提交了训练我的 pytorch 变压器模型的任务：

在 gcloud 日志记录中，我不断收到此错误：

认为这与我的 setup.py 文件有关，我也在那里检查了我的代码：

我还运行了 python setup.py sdist 以确保代码可以为我的包创建正确的 tar.gz 文件。

我检查了我的 python 版本，并确保将我的 pip 更新到最新版本。关于如何克服这个错误的任何帮助都会很棒。

更新：这不是 gcloud 问题。当我生成我的 requirements.txt 文件时，一些 conda 要求会潜入文件中。不幸的是，gcloud 训练作业记录器没有显示 dockerfile 中运行命令之外的堆栈跟踪，因此需要一段时间才能查明这一点。

python google-cloud-platform pip setuptools gcp-ai-platform-training

2020-11-03T04:14:57.757

0 投票

0 回答

298 浏览

tensorflow - 训练对象检测模型时，张量板图像选项卡上没有显示边界框是否正常？

我正在使用 Tensorflow 训练对象检测模型（从 ssd_mobilenet_v2_320x320_coco17_tpu-8 进行微调）并使用 tensorboard 监控训练任务。我期待在张量板的图像选项卡中显示的图像会显示一个边界框。我看到的只是图片上方画有橙色线的图像（与我期望的边界框相同的橙色）。我错过了什么吗？当我说是否应该出现边界框时我是对的吗？我看到的图片已加入。非常感谢任何帮助。

tensorflow tensorboard object-detection-api gcp-ai-platform-training

2020-11-03T19:55:19.227

0 投票

0 回答

264 浏览

tensorflow - GCP AI Platform 作业卡住

我在 AI Platform 上运行一个作业，它运行了一个多小时，没有任何进展、没有结果、没有日志（只有少数日志显示它正在运行）

这是我使用的区域、机器类型和 gpus：

人工智能平台工作

这项工作只有很少的日志

我正在训练的模型很大并且使用大量内存。这项工作只是挂在那里，没有任何进展、日志或错误。但我注意到它在 GCP 上消耗了 12.81 ML 单位。通常，如果 GPU 内存不足，它会抛出“OOM/resourceExhausted 错误”。没有日志，我不知道那里出了什么问题。

我用较小的输入尺寸运行了一项不同的工作，并在 12 分钟内成功完成：

成功的工作

此外，我在训练过程中使用 tf.MirroredStrategy 以便它可以分布在 GPU 上。

对此有什么想法吗？

tensorflow google-cloud-platform tensorflow2.0 gcp-ai-platform-training google-ai-platform

2020-11-08T07:52:15.990

0 投票

0 回答

79 浏览

tensorflow - Tensorflow - 解释 tf.estimator.ProfilerHook "_Send" op

我有一个在 Google AI 平台上训练的深度 CNN/RNN。我使用tf.distribute.MirroredStrategy. 我最近将我的运行时版本从 1.13 升级到 1.15，我的训练速度比以前慢了 2 倍以上。我读到它tf.estimator.ProfilerHook可以用来识别性能瓶颈。所以我收集了分析信息并将其呈现在chrome://tracing. 我懂了

_Send一个训练步骤在这些操作上花费了整整 1 秒。这是什么？我找不到有关操作的任何文档或为什么它在我的图表中。这是什么意思？

tensorflow google-cloud-ml gcp-ai-platform-training

2020-11-10T12:44:46.170

0 投票

2 回答

511 浏览

google-cloud-platform - Google AI Platform 培训 - 等待作业完成

我已经构建了一个包含许多并行进程的 AI Platform 管道。每个进程都会在 AI Platform 上启动一个训练作业，如下所示：

然后它必须等待作业完成才能进入下一步。为此，我尝试将参数添加--stream-logs到上述命令中。通过这种方式，它会流式传输所有日志，直到作业完成。

问题是，有这么多并行进程，我用完了获取日志的请求：

但我不需要实际流式传输日志，我只需要一种方法来告诉进程“等待”直到训练工作完成。有没有更聪明、更简单的方法来做到这一点？

google-cloud-platform gcp-ai-platform-training google-ai-platform

2020-11-12T14:39:20.957

0 投票

1 回答

140 浏览

python - Google AI 平台无法写入云存储

在 Google AI Platform 上运行tensorflow-cloud作业，作业的入口点如下：

作业成功完成，在日志中打印“hello world”。

存储桶和作业都在同一个区域中。

但我在 Cloud Storage 中找不到该文件。它不在那里。我跑了一些其他的测试，tf.io.gfile.listdir然后我写了一个新文件，然后tf.io.gfile.listdir我打印了之前和之后，似乎添加了一个文件，但是当我打开云存储时，我在那里找不到它。还能够从存储中读取文件。

我没有收到任何权限错误，正如官方文档所说，AI Platform 已经拥有读取/写入云存储的权限。

这是我的main.py文件：

这是我可以重现问题的最小版本。

python tensorflow google-cloud-platform google-cloud-storage gcp-ai-platform-training

2020-11-14T19:08:49.197

0 投票

1 回答

308 浏览

tensorflow2.0 - GCP AI平台如何有效使用TFRC程序

我正在尝试在 GCP 的 AI 平台作业服务中运行超参数调整作业，这是我批准的Tensorflow Research Cloud程序

区域 us-central1-f 中的 100 个抢占式 Cloud TPU v2-8 设备
区域 us-central1-f 中的 20 个按需 Cloud TPU v2-8 设备
5 个按需 Cloud TPU v3-8 设备，位于 europe-west4-a 区域

我已经在 Tensorflow 2 上构建了一个自定义模型，我想运行指定确切区域的作业，以利用 TFRC 程序和 AI 平台作业服务；现在我有一个 YAML 配置文件，如下所示：

理论上，如果我在单独的 TPU 实例中运行 16 个并行作业，每个作业应该可以工作，但是由于请求超出 TPU_V2 的配额而返回错误

错误：（gcloud.ai-platform.jobs.submit.training）RESOURCE_EXHAUSTED：项目################## 的配额失败。16 个并行运行对 128 个 TPU_V2 加速器的请求超过了允许的最大值：0 A100、0 TPU_V2_POD、0 TPU_V3_POD、16 TPU_V2、16 TPU_V3、2 P4、2 V100、30 K80、30 P100、6 T4 加速器。

然后我将 maxParallelTrials 减少到只有 2 并开始工作，这证实了上面的错误消息，配额是按 TPU 芯片计算的，而不是按 TPU 实例计算的。

因此，我认为，也许我完全误解了 TFRC 计划的批准配额，然后我继续检查作业是否使用 us-central1-f 区域，但结果发现使用了不需要的区域：

-tpu_node={“项目”：“p091c8a0a31894754-tp”，“区域”：“us-central1-c”，“tpu_node_name”：“cmle-training-1597710560117985038-tpu”}”

这种行为不允许我有效地使用免费批准的配额，如果我理解正确，在 us-central1-c 中运行的作业正在占用我的帐户，但不使用免费资源。因此，我想知道是否有某种方法可以在 AI 平台作业中设置区域，并且可以传递一些标志来使用可抢占 TPU。

tensorflow2.0 tpu google-cloud-tpu gcp-ai-platform-training google-ai-platform

2020-11-24T00:33:10.627

0 投票

1 回答

196 浏览

python - 如何将我的训练数据上传到谷歌进行 Tensorflow 云训练

我想在 gcp 中训练我的 keras 模型。

我的代码：

这就是我加载数据集的方式

这就是我触发云训练的方式

就在我的模型之前，这应该没什么区别

一切正常，正在为我的模型创建 docker 映像，但未上传USDJPY.fx5.csv文件。所以我得到文件未找到错误

将自定义文件加载到培训作业中的正确方法是什么？我将火车数据上传到 s3 存储桶，但我无法告诉谷歌去那里看。

python tensorflow google-app-engine google-cloud-platform gcp-ai-platform-training

2020-11-28T18:41:49.767

问题标签 [gcp-ai-platform-training]

Reference