问题标签 [gcp-ai-platform-training]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
tensorflow - Google Cloud AI Platform 如何分配给定区域的资源,是否遵循配额限制?
我为 zone 分配了免费数量的 TPU us-central1-a
。但仅适用于该特定区域。当我设置 Platform-ai 作业时,我只能指定一个区域 ( us-central
)。
平台 AI 会仅根据可用性选择随机区域吗?有没有办法可以将其限制在给定区域?
google-cloud-platform - 如何使用 Dataflow 更新 IoT 设备配置(在 Cloud IoT Core 中)?
我正在使用 Google Cloud Platform 收集物联网数据。然后分析将完成,可能在 AI Platform 中,我想将一些检索到的数据作为配置设置发送到 IoT 设备。我已经看到了几个流程图(见下文),展示了数据如何通过 Dataflow 从 AI Platform 流向 IoT Core 作为设备配置,但我该怎么做呢?(我之前只通过 Cloud Functions 发送了设备配置更新。)
我是 Dataflow 和 AI Platform 的新手,但已开始考虑将一些 Python 代码添加到 Dataflow 中的 Apache Beam 管道以更新设备配置。这似乎是前进的方向吗?
google-cloud-platform - 如何加快 AI 平台训练作业队列?
每当我向 AI 平台提交训练作业时,我必须在排队后等待大约 5-10 分钟才能开始训练作业。当我提交训练包以及提交 docker 映像时,就会发生这种情况。
日志类似于:
这完全站在谷歌一边吗?我这边有什么设置会影响这个吗?
google-cloud-platform - Cloud AI Platform Training 无法读取存储桶
我正在尝试使用 Cloud AI Platform 进行培训(gcloud ai-platform 作业提交培训)。我创建了我的存储桶并确定训练文件在那里(gsutil ls gs://sat3_0_bucket/data/train_input.csv)。
但是,我的工作因日志消息而失败:
我错过了什么吗?
google-cloud-platform - 如何自动启动 AI 平台作业?
我创建了一个训练作业,我从大查询中获取我的数据,执行训练和部署模型。我想在这两种情况下自动开始训练:
- 超过 1000 个新行添加到数据集中
- 有时间表(例如,每周一次)
我检查了 GCP Cloud Scheduler,但它似乎不适合我的情况。
google-cloud-platform - 如何通过 terraform 从 gcp 市场声明 gcp 计算引擎映像
我有一个公司请求编写一个 terraform 脚本来部署来自 GCP 市场的计算引擎映像?这很可能是深度学习图像。有人可以帮忙吗?
tensorflow - 使用 GCP TPU 时是否需要 Google colab 的 TPU 实例?
我一直在享受免费的 colab TPU,我希望升级到 GCP,但我有点担心 TPU colab 的时间限制,我听说 colab 只允许每个用户使用一定的小时数。
所以我想知道我是否可以只使用 CPU 或 GPU 实例,并连接到 GCP 上的 TPU。
python - 主脚本完成后,使用自定义容器进行的训练未完成
我正在使用谷歌云人工智能平台上的 Docker 容器训练一个带有 tensorflow 和对象检测 api 的对象检测模型。训练完成后,成功导出了一个 tflite 图,但问题是完成后作业没有main.py
完成。
为了训练模型和导出,我使用一个main.py
脚本作为入口点:
并且脚本需要一些参数,我使用CMD
Dockerfile 中的关键字传递给它(尽管它们可以使用gcloud ai-platform jobs submit training
命令被覆盖):
的内容main.py
基本上是这样的:
要开始工作,我执行以下操作:
当我Training finished
在 Google Cloud Log Viewer 中看到容器运行至少五分钟而没有完成时,如果我不手动取消作业,我不知道它是否会停止。
我是否必须在结束时指示 AI Platform 完成工作main.py
?也许返回一个状态码(例如return 0
)?还是我应该等待超过五分钟让工作自行完成?
python - 如何修复:“错误”:“预测失败:未知错误。” 在 scikit-learn 的自定义预测例程中?
我正在尝试使用 scikit-learn 的 MLPClassifier 在 Google 的 AI 平台上编写自定义预测例程。我已经成功打包并部署了模型,但是当我通过 请求在线预测时gcloud ai-platform predict
,我得到了错误"error": "Prediction failed: unknown error."
然后我去控制台在我的模型的“测试和使用”部分手动测试我的模型并收到相同的错误.
训练向量是具有 6 个元素的 numpy 数组(例如 [1,2,3,4,5,6]),目标是 0、1 或 2。
这是我的 preprocess.py 代码:
这是我的 predictor.py 代码:
这是我训练和导出模型的代码:
设置.py:
我尝试使用如下所示的 input.json 文件提供在线预测
用这个命令
我得到了上面的错误。有人可以帮忙吗?我希望 Google AI Platform 有更多信息丰富的错误消息。
google-cloud-platform - 45 MB 模型对于 Google AI Platform 来说太大了
我正在尝试使用 AI 平台来部署 scikit-learn 管道。我尝试部署的 model.joblib 文件大小为 45 兆字节。
- 蟒蛇版本:3.7
- 框架:scikit-learn(==0.20.4)
- 单核 CPU、四核 CPU(测试版)
我使用以下命令进行部署以及 GUI
这是我正在使用的 setup.py 文件,以防问题可能出在库上。
我还尝试从 setup.py 中删除 pytorch 并使用http://storage.googleapis.com/cloud-ai-pytorch/readme.txt中的 torch 1.3,但这给我留下了同样的错误消息。