问题标签 [gcp-ai-platform-training]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-cloud-platform - 如何在 Google Cloud AI Platform 中使用 Base64 提供 Tensorflow2 图像分割模型
我成功地使用以下代码将 TF2 图像分割模型保存并部署到 AI Platform:
但是,在发送这样的请求时出现此错误:
有人遇到过类似的问题吗?这似乎是一个问题tf.image.decode_jpeg
。我也尝试过tf.image.decode_image
并得到了类似的错误。我可以使用tf.image.decode_jpeg
我的本地 Base64 编码,所以这个函数应该能够工作,但不知何故它没有在服务器中接收相同的输入!
google-cloud-platform - GCP IoT Core 拒绝公钥并显示“证书采用无效的 PEM 格式”错误消息。有什么问题?
我正在学习如何使用 IoT Core。在尝试创建设备时,我遇到了公钥错误。“证书采用无效的 PEM 格式”,它说。此公钥是作为 qwiklabs 说明的一部分提供的,所以我不知道可能出了什么问题。
也许它与下面的说明有关,但我无法确定错误是什么。
这是实验室:这里
google-cloud-platform - 等了好几个小时才开始工作培训,我怎么知道?这次我会付钱吗?
我的 AI 平台工作需要花费太多时间才能开始,在日志中我只看到初始消息:
2020-05-19T20:19:29.069Z 服务正在验证工作要求...
2020-05-19T20:19:29.449Z 服务 作业创建请求已成功验证
2020-05-19T20:19:29.718698960Z 服务等待提供作业
2020-05-19T20:19:29.768Z 服务作业容器_seq2seq_job_20200519_201839 已排队
2020-05-19T20:19:31.354650481Z 服务等待培训计划开始
看起来没有资源或类似的资源并且作业没有运行,我的代码应该有一些打印。
你能帮我吗:我怎么知道为什么在等待?如果计费是有效的?我认为是,但没有工作完成,我将不得不为此付出代价。
google-cloud-platform - 无论如何要坚持配额 20.0 CPU 并提交作业?
每当我尝试使用命令向 gcloud 提交训练作业时
它给出的配额错误是
即使我从未在命令中定义 60.0 CPU。根据谷歌文档,我们需要增加配额才能完成这项工作。有没有办法坚持配额 20.0 CPU 并在 GCP 上训练模型?
tensorflow - 使用 GCP 训练的模型进行推理?
我是这个话题的新手,所以请多多包涵。
我一直在按照本教程训练我自己的分割模型:GCP 上的 ShapeMask 训练过程成功完成,我得到以下输出:
现在,我正在尝试在 google 提供的 colab notebook 中使用它:Colab
但是我无法向它提供我训练有素的模型。我需要在该笔记本中保存一个模型,但是我几乎没有运气将我的输出转换为保存的模型。我在 VM 和 TPU 上使用 TF 版本 1.15.2。
在我缺少的训练和推理之间有几个步骤。但我不知道它们是什么。任何帮助都非常感谢。谢谢你!
python - 加载模型时出现意外错误:预测器中的问题 - ModuleNotFoundError: No module named 'torchvision'
我一直在尝试通过我的 vm 实例上的控制台将我的模型部署到 AI 平台进行预测,但我收到错误“(gcloud.beta.ai-platform.versions.create)创建版本失败。模型错误检测到错误:“加载模型失败:加载模型时出现意外错误:预测器中的问题 - ModuleNotFoundError:没有名为‘torchvision’的模块(错误代码:0)”
我需要同时包含torch
和torchvision
。我按照此问题中的步骤无法使用自定义预测例程将训练模型部署到 Google Cloud Ai-Platform: Model requires more memory than allowed,但我无法获取用户 gogasca 指向的文件。我尝试从 Pytorch 网站下载这个.whl 文件并将其上传到我的云存储,但得到了相同的错误,即没有模块torchvision
,即使这个版本应该包括 torch 和 torchvision。还尝试在此处使用与 Cloud AI 兼容的软件包,但它们不包括torchvision
.
我尝试在参数中指向两个单独的 .whl 文件torch
,这些文件指向我的云存储中的文件,但随后出现超出内存容量的错误。这很奇怪,因为它们的总大小约为 130Mb。我的命令导致缺少的示例如下所示:torchvision
--package-uris
torchvision
我尝试指向从不同来源获得的 .whl 文件的不同组合,但出现无模块错误或内存不足。我不明白在这种情况下模块如何交互以及为什么编译器认为没有这样的模块。我该如何解决这个问题?或者,我如何自己编译一个包含torch
和torchvision
. 您能否给出详细的答案,因为我对包管理和 bash 脚本不是很熟悉。
这是我使用的代码torch_model.py
:
这是predictor_py
:
并且setup.py
:
google-cloud-ml - Google Cloud 上内置图像对象检测中的对象标签“从 0 到 num_classes-1”或从“1 到 num_classes”?
谷歌内置对象检测文档/参考说num_classes
参数应该设置如下:
例如,对于num_classes=5,输入 tf.Example 中的图像/类/标签的范围需要是[0, 4]。
然而,关于如何在对象检测 API 世界中创建自己的数据集的大多数其他资源(例如,这里)都说标签应该从 1 开始,也就是说,对于 5 个类,它们应该是 [1,5]。
我的问题是:
参考文档中的示例是否正确,即我应该将 [0,4] 用于 5 个类吗?
这有什么关系吗,也就是说,这会破坏训练过程吗?
“内置对象检测”算法在其他方面是否特别,或者我可以按照“使用您自己的数据集”功能创建我的 TFrecord 文件?
tensorflow - 使用 tensorflow 的 DNN 估计器无法在 GCP 的 AI 平台上获得可重现的结果
问题
我无法使用 TensorFlow 1.14 在 GCP 的 AI 平台上获得可重现的结果。这使得超参数调整变得困难,因为我不确定性能的变化是由于超参数本身还是由于随机性。
该模型是一个简单的开箱即用的 DNN 估计器。
我试过的
- 在运行配置中设置随机种子
- 设置全局图种子
在我的task.py
文件中,我有以下内容:
为了获得可重复的结果,是否还需要做其他事情?
google-cloud-platform - 谷歌云平台AI平台加载数据后内核自动重启
我正在尝试使用 AI 平台的笔记本加载 600 MB 的数据。
数据加载一开始很好,但是加载完成后内核会自动重启。我之前已经成功加载过数据,问题出现在我在加载数据时对图像进行了一些预处理之后。
自从我是 GCP 新手以来,我想知道我是否做错了什么来实现这一点。我尝试设置更高的 RAM,但仍然无法正常工作。这是触发问题的代码。
谢谢你的帮助
google-cloud-platform - 如何知道批量云预测何时结束
我正在做一个应用程序,它接收一些数据,对其进行处理,然后创建一个预测 AI 批处理作业。预测完成后,我应该把它们全部拿走并将它们与以前的文件合并。批量预测写入存储桶,我们称之为 is gs://predictions
。
目前,我有一个云功能,只要gs://predictions
写入就会触发。但是,批量预测作业将数据流式传输到文件中,当需要进行大量预测时,会多次更新此类文件。这意味着当我只想在作业完成时调用它时,我的云函数会被触发很多次。
为了克服这个问题,现在调用云函数,然后检查作业是否完成。如果是,则处理文件;如果没有,让它滑动。当然,这会带来很多不必要的处理(和不必要的代码!):-(
在这里真正对我有什么帮助:批处理作业完成后能否以某种方式写入 Pub/Sub?或者更好的是,它可以使用 webhook 以便在完成后自己调用我的云函数吗?我试图查看文档,但找不到任何东西。
有没有其他建议的解决方案?