问题标签 [gcp-ai-platform-training]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

127 问题

0 投票

1 回答

75 浏览

tensorflow - Google Cloud AI Platform 如何分配给定区域的资源，是否遵循配额限制？

我为 zone 分配了免费数量的 TPU us-central1-a。但仅适用于该特定区域。当我设置 Platform-ai 作业时，我只能指定一个区域 ( us-central)。

平台 AI 会仅根据可用性选择随机区域吗？有没有办法可以将其限制在给定区域？

2020-06-06T08:29:24.660

0 投票

1 回答

343 浏览

google-cloud-platform - 如何使用 Dataflow 更新 IoT 设备配置（在 Cloud IoT Core 中）？

我正在使用 Google Cloud Platform 收集物联网数据。然后分析将完成，可能在 AI Platform 中，我想将一些检索到的数据作为配置设置发送到 IoT 设备。我已经看到了几个流程图（见下文），展示了数据如何通过 Dataflow 从 AI Platform 流向 IoT Core 作为设备配置，但我该怎么做呢？（我之前只通过 Cloud Functions 发送了设备配置更新。）

我是 Dataflow 和 AI Platform 的新手，但已开始考虑将一些 Python 代码添加到 Dataflow 中的 Apache Beam 管道以更新设备配置。这似乎是前进的方向吗？

google-cloud-platform google-cloud-dataflow google-cloud-iot gcp-ai-platform-training

2020-06-11T13:10:43.027

0 投票

0 回答

270 浏览

google-cloud-platform - 如何加快 AI 平台训练作业队列？

每当我向 AI 平台提交训练作业时，我必须在排队后等待大约 5-10 分钟才能开始训练作业。当我提交训练包以及提交 docker 映像时，就会发生这种情况。

日志类似于：

这完全站在谷歌一边吗？我这边有什么设置会影响这个吗？

google-cloud-platform google-cloud-ml gcp-ai-platform-training

2020-06-12T11:49:36.957

0 投票

1 回答

300 浏览

google-cloud-platform - Cloud AI Platform Training 无法读取存储桶

我正在尝试使用 Cloud AI Platform 进行培训（gcloud ai-platform 作业提交培训）。我创建了我的存储桶并确定训练文件在那里（gsutil ls gs://sat3_0_bucket/data/train_input.csv）。

但是，我的工作因日志消息而失败：

我错过了什么吗？

google-cloud-platform google-cloud-ml gcp-ai-platform-training

2020-06-18T22:27:44.630

0 投票

2 回答

1149 浏览

google-cloud-platform - 如何自动启动 AI 平台作业？

我创建了一个训练作业，我从大查询中获取我的数据，执行训练和部署模型。我想在这两种情况下自动开始训练：

超过 1000 个新行添加到数据集中
有时间表（例如，每周一次）

我检查了 GCP Cloud Scheduler，但它似乎不适合我的情况。

google-cloud-platform gcp-ai-platform-training

2020-06-27T15:42:30.480

0 投票

1 回答

317 浏览

google-cloud-platform - 如何通过 terraform 从 gcp 市场声明 gcp 计算引擎映像

我有一个公司请求编写一个 terraform 脚本来部署来自 GCP 市场的计算引擎映像？这很可能是深度学习图像。有人可以帮忙吗？

示例图片 - https://console.cloud.google.com/marketplace/details/click-to-deploy-images/deeplearning?q=compute%20engine%20images&id=8857b4a3-f60f-40b2-9b32-22b4428fd256

google-cloud-platform google-compute-engine terraform-provider-gcp gcp-ai-platform-training

2020-06-29T19:13:15.980

0 投票

0 回答

68 浏览

tensorflow - 使用 GCP TPU 时是否需要 Google colab 的 TPU 实例？

我一直在享受免费的 colab TPU，我希望升级到 GCP，但我有点担心 TPU colab 的时间限制，我听说 colab 只允许每个用户使用一定的小时数。

所以我想知道我是否可以只使用 CPU 或 GPU 实例，并连接到 GCP 上的 TPU。

tensorflow google-cloud-platform google-colaboratory tpu gcp-ai-platform-training

2020-07-11T06:52:01.047

0 投票

0 回答

71 浏览

python - 主脚本完成后，使用自定义容器进行的训练未完成

我正在使用谷歌云人工智能平台上的 Docker 容器训练一个带有 tensorflow 和对象检测 api 的对象检测模型。训练完成后，成功导出了一个 tflite 图，但问题是完成后作业没有main.py完成。

为了训练模型和导出，我使用一个main.py脚本作为入口点：

并且脚本需要一些参数，我使用CMDDockerfile 中的关键字传递给它（尽管它们可以使用gcloud ai-platform jobs submit training命令被覆盖）：

的内容main.py基本上是这样的：

要开始工作，我执行以下操作：

当我Training finished在 Google Cloud Log Viewer 中看到容器运行至少五分钟而没有完成时，如果我不手动取消作业，我不知道它是否会停止。

我是否必须在结束时指示 AI Platform 完成工作main.py？也许返回一个状态码（例如return 0）？还是我应该等待超过五分钟让工作自行完成？

python docker tensorflow google-cloud-ml gcp-ai-platform-training

2020-07-11T18:22:45.057

0 投票

0 回答

85 浏览

python - 如何修复：“错误”：“预测失败：未知错误。” 在 scikit-learn 的自定义预测例程中？

我正在尝试使用 scikit-learn 的 MLPClassifier 在 Google 的 AI 平台上编写自定义预测例程。我已经成功打包并部署了模型，但是当我通过请求在线预测时gcloud ai-platform predict，我得到了错误"error": "Prediction failed: unknown error."然后我去控制台在我的模型的“测试和使用”部分手动测试我的模型并收到相同的错误.

训练向量是具有 6 个元素的 numpy 数组（例如 [1,2,3,4,5,6]），目标是 0、1 或 2。

这是我的 preprocess.py 代码：

这是我的 predictor.py 代码：

这是我训练和导出模型的代码：

设置.py：

我尝试使用如下所示的 input.json 文件提供在线预测

用这个命令

我得到了上面的错误。有人可以帮忙吗？我希望 Google AI Platform 有更多信息丰富的错误消息。

python scikit-learn gcloud gcp-ai-platform-training google-cloud-ai

2020-07-27T16:44:09.490

0 投票

0 回答

156 浏览

google-cloud-platform - 45 MB 模型对于 Google AI Platform 来说太大了

我正在尝试使用 AI 平台来部署 scikit-learn 管道。我尝试部署的 model.joblib 文件大小为 45 兆字节。

蟒蛇版本：3.7
框架：scikit-learn(==0.20.4)
单核 CPU、四核 CPU（测试版）

我使用以下命令进行部署以及 GUI

这是我正在使用的 setup.py 文件，以防问题可能出在库上。

我还尝试从 setup.py 中删除 pytorch 并使用http://storage.googleapis.com/cloud-ai-pytorch/readme.txt中的 torch 1.3，但这给我留下了同样的错误消息。

google-cloud-platform gcp-ai-platform-training google-cloud-ai-platform-pipelines

2020-07-29T16:21:58.407

1 2 3 4 5 6 7 8 9 10

问题标签 [gcp-ai-platform-training]

Reference