问题标签 [gcp-ai-platform-training]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-cloud-platform - Google AI Platform VM 似乎不包含官方模型存储库
我正在按照教程图像对象检测自定义数据集 — TensorFlow 2 对象检测 API使用 Google gcloud 启动训练任务。但是任务因错误而终止
为什么 Google AI Platform VM 不包含官方模型仓库?
google-cloud-platform - 使用 Cloud Run 运行 AI Platform Notebook
我在 AI Platform 中generate_trends.py
存储了一个带有实例名称的 python 脚本python-20201013-153823
作为笔记本。使用 Flask 直接从云运行该脚本的最佳方式是什么?
python - AI平台(谷歌云计算)中的pip3安装错误
我最近一直在尝试向 GCP 的 AI 平台提交训练任务。
我使用以下代码成功提交了训练我的 pytorch 变压器模型的任务:
在 gcloud 日志记录中,我不断收到此错误:
认为这与我的 setup.py 文件有关,我也在那里检查了我的代码:
我还运行了 python setup.py sdist 以确保代码可以为我的包创建正确的 tar.gz 文件。
我检查了我的 python 版本,并确保将我的 pip 更新到最新版本。关于如何克服这个错误的任何帮助都会很棒。
更新:这不是 gcloud 问题。当我生成我的 requirements.txt 文件时,一些 conda 要求会潜入文件中。不幸的是,gcloud 训练作业记录器没有显示 dockerfile 中运行命令之外的堆栈跟踪,因此需要一段时间才能查明这一点。
tensorflow - GCP AI Platform 作业卡住
我在 AI Platform 上运行一个作业,它运行了一个多小时,没有任何进展、没有结果、没有日志(只有少数日志显示它正在运行)
这是我使用的区域、机器类型和 gpus:
人工智能平台工作
这项工作只有很少的日志
我正在训练的模型很大并且使用大量内存。这项工作只是挂在那里,没有任何进展、日志或错误。但我注意到它在 GCP 上消耗了 12.81 ML 单位。通常,如果 GPU 内存不足,它会抛出“OOM/resourceExhausted 错误”。没有日志,我不知道那里出了什么问题。
我用较小的输入尺寸运行了一项不同的工作,并在 12 分钟内成功完成:
成功的工作
此外,我在训练过程中使用 tf.MirroredStrategy 以便它可以分布在 GPU 上。
对此有什么想法吗?
google-cloud-platform - Google AI Platform 培训 - 等待作业完成
我已经构建了一个包含许多并行进程的 AI Platform 管道。每个进程都会在 AI Platform 上启动一个训练作业,如下所示:
然后它必须等待作业完成才能进入下一步。为此,我尝试将参数添加--stream-logs
到上述命令中。通过这种方式,它会流式传输所有日志,直到作业完成。
问题是,有这么多并行进程,我用完了获取日志的请求:
但我不需要实际流式传输日志,我只需要一种方法来告诉进程“等待”直到训练工作完成。有没有更聪明、更简单的方法来做到这一点?
python - Google AI 平台无法写入云存储
在 Google AI Platform 上运行tensorflow-cloud作业,作业的入口点如下:
作业成功完成,在日志中打印“hello world”。
存储桶和作业都在同一个区域中。
但我在 Cloud Storage 中找不到该文件。它不在那里。我跑了一些其他的测试,tf.io.gfile.listdir
然后我写了一个新文件,然后tf.io.gfile.listdir
我打印了之前和之后,似乎添加了一个文件,但是当我打开云存储时,我在那里找不到它。还能够从存储中读取文件。
我没有收到任何权限错误,正如官方文档所说,AI Platform 已经拥有读取/写入云存储的权限。
这是我的main.py
文件:
这是我可以重现问题的最小版本。
tensorflow2.0 - GCP AI平台如何有效使用TFRC程序
我正在尝试在 GCP 的 AI 平台作业服务中运行超参数调整作业,这是我批准的Tensorflow Research Cloud程序
- 区域 us-central1-f 中的 100 个抢占式 Cloud TPU v2-8 设备
- 区域 us-central1-f 中的 20 个按需 Cloud TPU v2-8 设备
- 5 个按需 Cloud TPU v3-8 设备,位于 europe-west4-a 区域
我已经在 Tensorflow 2 上构建了一个自定义模型,我想运行指定确切区域的作业,以利用 TFRC 程序和 AI 平台作业服务;现在我有一个 YAML 配置文件,如下所示:
理论上,如果我在单独的 TPU 实例中运行 16 个并行作业,每个作业应该可以工作,但是由于请求超出 TPU_V2 的配额而返回错误
错误:(gcloud.ai-platform.jobs.submit.training)RESOURCE_EXHAUSTED:项目################## 的配额失败。16 个并行运行对 128 个 TPU_V2 加速器的请求超过了允许的最大值:0 A100、0 TPU_V2_POD、0 TPU_V3_POD、16 TPU_V2、16 TPU_V3、2 P4、2 V100、30 K80、30 P100、6 T4 加速器。
然后我将 maxParallelTrials 减少到只有 2 并开始工作,这证实了上面的错误消息,配额是按 TPU 芯片计算的,而不是按 TPU 实例计算的。
因此,我认为,也许我完全误解了 TFRC 计划的批准配额,然后我继续检查作业是否使用 us-central1-f 区域,但结果发现使用了不需要的区域:
-tpu_node={“项目”:“p091c8a0a31894754-tp”,“区域”:“us-central1-c”,“tpu_node_name”:“cmle-training-1597710560117985038-tpu”}”
这种行为不允许我有效地使用免费批准的配额,如果我理解正确,在 us-central1-c 中运行的作业正在占用我的帐户,但不使用免费资源。因此,我想知道是否有某种方法可以在 AI 平台作业中设置区域,并且可以传递一些标志来使用可抢占 TPU。
python - 如何将我的训练数据上传到谷歌进行 Tensorflow 云训练
我想在 gcp 中训练我的 keras 模型。
我的代码:
这就是我加载数据集的方式
这就是我触发云训练的方式
就在我的模型之前,这应该没什么区别
一切正常,正在为我的模型创建 docker 映像,但未上传USDJPY.fx5.csv文件。所以我得到文件未找到错误
将自定义文件加载到培训作业中的正确方法是什么?我将火车数据上传到 s3 存储桶,但我无法告诉谷歌去那里看。