问题标签 [google-ai-platform]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
1289 浏览

machine-learning - 创建版本 google cloud ai-platform 时出错。ImportError:无法从“six.moves”(未知位置)导入名称“collections_abc”

我正在尝试在谷歌云人工智能平台中部署模型版本。我成功创建了模型(称为 MyModel),但是当我尝试从命令行部署模型的一个版本时,它会提示下一个错误:

创建版本失败。检测到错误模型:“加载模型失败:加载模型时出现意外错误:预测器出现问题 - ImportError:无法从‘six.moves’(未知位置)导入名称‘collections_abc’(错误代码:0)”

我实际上在 2 周前创建了没有问题的模型。我对其他模型也有同样的问题,我用设置中的下一个库解决了这个问题:

  • 谷歌身份验证==1.18.0
  • 谷歌云存储==1.31.2
  • google-api-core==1.22.2

创建模型的方式是从存储桶中查看模型dist(我是从命令行上传的,没有问题):


创建模型的步骤

  1. 创建将上传到模型旁边的云存储桶的 targz 文件
    • python setup.py sdist --formats=gztar
  2. 将压缩包上传到 gcloud 存储
    • gsutil cp dist/my_custom_code-0.1.tar.gz gs://my-bucket
  3. 创建ai平台模型
    • gcloud beta ai-platform 模型创建 MyModel --regions my-region --enable-logging --enable-console-logging
  4. 创建版本模型 (v1)
    • gcloud beta ai-platform 版本创建 v1 --model MyModel --runtime-version 1.15 --python-version 3.7 --origin gs://my-bucket/model/ --package-uris gs://my-bucket/ my_custom_code-0.1.tar.gz --prediction-class predictor.MyPredictor

我试过什么

  • 使用最新的 google 库版本创建版本
  • 使用以下库创建版本:google-auth==1.18.0、google-cloud-storage==1.31.2、google-api-core==1.22.2

我想这与谷歌图书馆及其版本更新有关。我愿意接受所有建议。提前致谢。

0 投票
1 回答
2356 浏览

python - Google AI Platform:加载模型时出现意外错误:'str' object has no attribute 'decode' [Keras 2.3.1, TF 1.15]

我正在尝试使用 Google AI Platform 中的 beta Google Custom Prediction Routine 来运行我的模型的实时版本。

我在我的包predictor.py中包含一个这样的Predictor类:

完整错误Create Version failed. Bad model detected with error: "Failed to load model: Unexpected error when loading the model: 'str' object has no attribute 'decode' (Error code: 0)" 表明问题出在此脚本中,特别是在加载模型时。但是,我可以使用相同的代码块在本地成功地将模型加载到我的笔记本中predict.py

我看过类似的帖子,建议设置版本,h5py<3.0.0但这没有帮助。我可以在文件中为我的自定义预测例程设置模块版本setup.py

不幸的是,我还没有找到在 google 的 AI Platform 中调试模型部署的好方法,并且故障排除指南也无济于事。任何指针将不胜感激。谢谢!

编辑1:

h5py 模块的版本是错误的——在 3.1.0,尽管在setup.py. 有谁知道为什么?我确认 Keras 版本和其他模块设置正确。我已经尝试过'h5py==2.9.0''h5py<3.0.0'但无济于事。更多关于在此处包含 PyPi 包依赖项的信息。

编辑2:

所以事实证明谷歌目前不支持这种能力。

0 投票
2 回答
511 浏览

google-cloud-platform - Google AI Platform 培训 - 等待作业完成

我已经构建了一个包含许多并行进程的 AI Platform 管道。每个进程都会在 AI Platform 上启动一个训练作业,如下所示:

然后它必须等待作业完成才能进入下一步。为此,我尝试将参数添加--stream-logs到上述命令中。通过这种方式,它会流式传输所有日志,直到作业完成。

问题是,有这么多并行进程,我用完了获取日志的请求:

但我不需要实际流式传输日志,我只需要一种方法来告诉进程“等待”直到训练工作完成。有没有更聪明、更简单的方法来做到这一点?

0 投票
1 回答
61 浏览

tensorflow - 在 GCP 上提供张量流模型?

最近我一直在尝试在 GCP 上托管一个自定义图像分类 tensorflow 保存模型,并使用 REST API 发送预测请求。我已经在 Google 的AI Platform API上托管了这个模型。

我正在尝试在 React Native 上构建一个应用程序。本质上,我从手机拍了一张照片,然后使用 REST 将其发送到我的模型。不幸的是,在查阅此文档后,我似乎需要 OAuth 令牌才能通过预测请求。我不想要这个功能。我不希望用户需要登录才能发送预测请求。

我想知道是否有办法托管这个 tensorflow 模型并fetch()从我的 React Native 环境发送请求。

如果有人以前这样做过,请告诉我!我非常感谢所有的帮助。

我愿意尝试不同的托管平台,但 tensorflow 网站已将我指向 GCP。

0 投票
1 回答
638 浏览

node.js - 什么参数对 Node js 的 Google Document AI 客户端库无效?

我正在尝试使用 Node js 应用程序从 Google 运行 Document OCR。所以我使用了 Node js 的客户端库@google-cloud/documentai

我做了所有像文档样本中一样的事情

有我的代码

图像编码在这里

结果我得到这个错误

我的请求中有哪些无效论点?

环境细节

  • 操作系统:Windows 10
  • Node.js 版本:12.18.3
  • npm 版本:6.14.8
  • @google-cloud/documentai版本:2.2.1
0 投票
1 回答
88 浏览

python - GCP 自定义预测例程无法包含 setup.py 中指定的 jsonschema 依赖项

根据此处的 GCP AI Platform 文档,自定义预测例程部署应允许包含 PyPI 依赖项。我在setup.py脚本中包含了我对 jsonschema 的依赖,如下所示:

但在部署时收到此错误消息:

指定这样的版本时,同样的错误仍然存​​在REQUIRED_PACKAGES = ['jsonschema==3.2.0']。然后我使用了一个较低的版本:

但现在出现此错误:

这里有什么问题?

0 投票
1 回答
504 浏览

google-cloud-platform - Request had invalid authentication credentials. Expected OAuth 2 access token, login cookie or other valid authentication credential automl

I am a novice developer who wants to learn how to use artificial intelligence. So I created model and it responds correctly according to the inputs. So I want to test using postman a call to the API to verify that everything works and I have an error in my call: "message": "Request had invalid authentication credentials. Expected OAuth 2 access token, login cookie or other valid authentication credential. See https://developers.google.com/identity/sign-in/web/devconsole-project.", "status": "UNAUTHENTICATED" I don't know how to authenticate myself to retrieve the access token. Could you help me find a solution please?

0 投票
0 回答
94 浏览

python - 谷歌云平台 Kubeflow 管道错误

我有一个使用 Kubeflow Pipeline 的 Google Cloud Platform 帐户。管道的第一个组件预处理一些数据,第二个组件使用该预处理数据训练模型(SKlearn 决策树分类器)。为了展示代码示例,下面的示例是对管道第二个组件的简单修改:

在这里,我没有加载预处理数据,而是使用 IRIS Sklearn 数据集,但输出完全相同。一切似乎都按预期工作,每个打印语句都按预期出现在 Kubeflow 平台输出控制台上,但是在第二个组件完成执行后(在输出控制台上显示最后一个打印正确之后),出现错误:

你知道为什么会这样吗?我做错了什么还是谷歌云/Kubeflow 管道问题?

提前致谢!

0 投票
1 回答
308 浏览

tensorflow2.0 - GCP AI平台如何有效使用TFRC程序

我正在尝试在 GCP 的 AI 平台作业服务中运行超参数调整作业,这是我批准的Tensorflow Research Cloud程序

  • 区域 us-central1-f 中的 100 个抢占式 Cloud TPU v2-8 设备
  • 区域 us-central1-f 中的 20 个按需 Cloud TPU v2-8 设备
  • 5 个按需 Cloud TPU v3-8 设备,位于 europe-west4-a 区域

我已经在 Tensorflow 2 上构建了一个自定义模型,我想运行指定确切区域的作业,以利用 TFRC 程序和 AI 平台作业服务;现在我有一个 YAML 配置文件,如下所示:

理论上,如果我在单独的 TPU 实例中运行 16 个并行作业,每个作业应该可以工作,但是由于请求超出 TPU_V2 的配额而返回错误

错误:(gcloud.ai-platform.jobs.submit.training)RESOURCE_EXHAUSTED:项目################## 的配额失败。16 个并行运行对 128 个 TPU_V2 加速器的请求超过了允许的最大值:0 A100、0 TPU_V2_POD、0 TPU_V3_POD、16 TPU_V2、16 TPU_V3、2 P4、2 V100、30 K80、30 P100、6 T4 加速器。

然后我将 maxParallelTrials 减少到只有 2 并开始工作,这证实了上面的错误消息,配额是按 TPU 芯片计算的,而不是按 TPU 实例计算的。

因此,我认为,也许我完全误解了 TFRC 计划的批准配额,然后我继续检查作业是否使用 us-central1-f 区域,但结果发现使用了不需要的区域:

-tpu_node={“项目”:“p091c8a0a31894754-tp”,“区域”:“us-central1-c”,“tpu_node_name”:“cmle-training-1597710560117985038-tpu”}”

这种行为不允许我有效地使用免费批准的配额,如果我理解正确,在 us-central1-c 中运行的作业正在占用我的帐户,但不使用免费资源。因此,我想知道是否有某种方法可以在 AI 平台作业中设置区域,并且可以传递一些标志来使用可抢占 TPU。

0 投票
0 回答
156 浏览

classification - ValueError:使用 Google 的图像分类内置算法在给定目录中找不到“检查点”文件或检查点

我尝试按照“内置图像分类算法入门”教程微调 resnet50 模型。我在我的谷歌云存储中存储了 resnet 50 imagenet 检查点(在此处找到)(路径是 gs://my-bucket/classification/models/resnet-50)。它包含以下内容:

当我提交训练作业时,我用参数指定pretrained_checkpoint_path上述路径。作业开始时,我收到以下错误:

检查点文件的名称是否应该符合某种预定义的格式?

编辑:实际上,当解压缩时,检查点目录也包含与上面相同的 3 个文件,但前缀为_.. 我得到了错误,所以我删除了这些前缀文件,但没有更多成功。