问题标签 [gcp-ai-platform-training]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
75 浏览

tensorflow - Google Cloud AI Platform 如何分配给定区域的资源,是否遵循配额限制?

我为 zone 分配了免费数量的 TPU us-central1-a。但仅适用于该特定区域。当我设置 Platform-ai 作业时,我只能指定一个区域 ( us-central)。

平台 AI 会仅根据可用性选择随机区域吗?有没有办法可以将其限制在给定区域?

0 投票
1 回答
343 浏览

google-cloud-platform - 如何使用 Dataflow 更新 IoT 设备配置(在 Cloud IoT Core 中)?

我正在使用 Google Cloud Platform 收集物联网数据。然后分析将完成,可能在 AI Platform 中,我想将一些检索到的数据作为配置设置发送到 IoT 设备。我已经看到了几个流程图(见下文),展示了数据如何通过 Dataflow 从 AI Platform 流向 IoT Core 作为设备配置,但​​我该怎么做呢?(我之前只通过 Cloud Functions 发送了设备配置更新。)

物联网数据流

我是 Dataflow 和 AI Platform 的新手,但已开始考虑将一些 Python 代码添加到 Dataflow 中的 Apache Beam 管道以更新设备配置。这似乎是前进的方向吗?

0 投票
0 回答
270 浏览

google-cloud-platform - 如何加快 AI 平台训练作业队列?

每当我向 AI 平台提交训练作业时,我必须在排队后等待大约 5-10 分钟才能开始训练作业。当我提交训练包以及提交 docker 映像时,就会发生这种情况。

日志类似于:

这完全站在谷歌一边吗?我这边有什么设置会影响这个吗?

0 投票
1 回答
300 浏览

google-cloud-platform - Cloud AI Platform Training 无法读取存储桶

我正在尝试使用 Cloud AI Platform 进行培训(gcloud ai-platform 作业提交培训)。我创建了我的存储桶并确定训练文件在那里(gsutil ls gs://sat3_0_bucket/data/train_input.csv)。

但是,我的工作因日志消息而失败:

我错过了什么吗?

0 投票
2 回答
1149 浏览

google-cloud-platform - 如何自动启动 AI 平台作业?

我创建了一个训练作业,我从大查询中获取我的数据,执行训练和部署模型。我想在这两种情况下自动开始训练:

  1. 超过 1000 个新行添加到数据集中
  2. 有时间表(例如,每周一次)

我检查了 GCP Cloud Scheduler,但它似乎不适合我的情况。

0 投票
1 回答
317 浏览

google-cloud-platform - 如何通过 terraform 从 gcp 市场声明 gcp 计算引擎映像

我有一个公司请求编写一个 terraform 脚本来部署来自 GCP 市场的计算引擎映像?这很可能是深度学习图像。有人可以帮忙吗?

示例图片 - https://console.cloud.google.com/marketplace/details/click-to-deploy-images/deeplearning?q=compute%20engine%20images&id=8857b4a3-f60f-40b2-9b32-22b4428fd256

0 投票
0 回答
68 浏览

tensorflow - 使用 GCP TPU 时是否需要 Google colab 的 TPU 实例?

我一直在享受免费的 colab TPU,我希望升级到 GCP,但我有点担心 TPU colab 的时间限制,我听说 colab 只允许每个用户使用一定的小时数。

所以我想知道我是否可以只使用 CPU 或 GPU 实例,并连接到 GCP 上的 TPU。

0 投票
0 回答
71 浏览

python - 主脚本完成后,使用自定义容器进行的训练未完成

我正在使用谷歌云人工智能平台上的 Docker 容器训练一个带有 tensorflow 和对象检测 api 的对象检测模型。训练完成后,成功导出了一个 tflite 图,但问题是完成后作业没有main.py完成。

为了训练模型和导出,我使用一个main.py脚本作为入口点:

并且脚本需要一些参数,我使用CMDDockerfile 中的关键字传递给它(尽管它们可以使用gcloud ai-platform jobs submit training命令被覆盖):

的内容main.py基本上是这样的:

要开始工作,我执行以下操作:

当我Training finished在 Google Cloud Log Viewer 中看到容器运行至少五分钟而没有完成时,如果我不手动取消作业,我不知道它是否会停止。

我是否必须在结束时指示 AI Platform 完成工作main.py?也许返回一个状态码(例如return 0)?还是我应该等待超过五分钟让工作自行完成?

0 投票
0 回答
85 浏览

python - 如何修复:“错误”:“预测失败:未知错误。” 在 scikit-learn 的自定义预测例程中?

我正在尝试使用 scikit-learn 的 MLPClassifier 在 Google 的 AI 平台上编写自定义预测例程。我已经成功打包并部署了模型,但是当我通过 请求在线预测时gcloud ai-platform predict,我得到了错误"error": "Prediction failed: unknown error."然后我去控制台在我的模型的“测试和使用”部分手动测试我的模型并收到相同的错误.

训练向量是具有 6 个元素的 numpy 数组(例如 [1,2,3,4,5,6]),目标是 0、1 或 2。

这是我的 preprocess.py 代码:

这是我的 predictor.py 代码:

这是我训练和导出模型的代码:

设置.py:

我尝试使用如下所示的 input.json 文件提供在线预测

用这个命令

我得到了上面的错误。有人可以帮忙吗?我希望 Google AI Platform 有更多信息丰富的错误消息。

0 投票
0 回答
156 浏览

google-cloud-platform - 45 MB 模型对于 Google AI Platform 来说太大了

我正在尝试使用 AI 平台来部署 scikit-learn 管道。我尝试部署的 model.joblib 文件大小为 45 兆字节。

  • 蟒蛇版本:3.7
  • 框架:scikit-learn(==0.20.4)
  • 单核 CPU、四核 CPU(测试版)

我使用以下命令进行部署以及 GUI

这是我正在使用的 setup.py 文件,以防问题可能出在库上。

我还尝试从 setup.py 中删除 pytorch 并使用http://storage.googleapis.com/cloud-ai-pytorch/readme.txt中的 torch 1.3,但这给我留下了同样的错误消息。