问题标签 [google-cloud-ai-platform-pipelines]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
63 浏览

google-cloud-platform - 如何将现有的 AI 平台管道部署升级到更新版本?

我目前正在运行 AI 平台管道 v0.2.5 的部署。我在 8 天前看到,容器注册表中添加了一个新版本 v0.5.1。这些版本之间有很多更改、修复等,我想更新我当前的部署。有没有一种简单的方法可以做到这一点,而不会丢失我的实验、管道运行等。

0 投票
0 回答
96 浏览

google-cloud-platform - AI Platform Pipelines 有时会随机失败

我已经使用 AI Platform Pipelines (v0.2.5) 好几个月了。我重建了 Pipelines 实例,因为我在控制台上找到了更新的版本 (v0.5.1)。我现在正忙于完成管道。

这很奇怪,因为似乎没有失败模式。

  • Pods(Components) 随机失败。大多数 pod 成功完成,而有些失败。此外,失败的 pod 因执行时间而异。
  • Pods 随机告诉我下面两个的错误消息。
  1. 文件“”,第 3 行,在 raise_from google.auth.exceptions.RefreshError中:(“无法从Google Compute Engine 元数据服务。状态:500 响应:\nb'Could not recurdively fetch uri\n'", <google.auth.transport.requests._Response object at 0x7fe5729c9650>)

在 GKE 集群工作负载标识已设置。我肯定确认了程序并且设置没有问题。尽管某些 pod 失败,但其他 pod 使用 Workload Identity 成功运行。当然,Google Cloud Credentials API 已启用。

我不知道这些问题是由更新 Pipelines 实例引起的。

有任何想法吗?

0 投票
0 回答
156 浏览

google-cloud-platform - 45 MB 模型对于 Google AI Platform 来说太大了

我正在尝试使用 AI 平台来部署 scikit-learn 管道。我尝试部署的 model.joblib 文件大小为 45 兆字节。

  • 蟒蛇版本:3.7
  • 框架:scikit-learn(==0.20.4)
  • 单核 CPU、四核 CPU(测试版)

我使用以下命令进行部署以及 GUI

这是我正在使用的 setup.py 文件,以防问题可能出在库上。

我还尝试从 setup.py 中删除 pytorch 并使用http://storage.googleapis.com/cloud-ai-pytorch/readme.txt中的 torch 1.3,但这给我留下了同样的错误消息。

0 投票
1 回答
1361 浏览

kubernetes - GCP AI 平台 - 管道 - 集群 - 没有最低可用性

我无法创建管道。我什至无法在 AI Platform Pipelines Dashboard 上加载示例/教程,因为它似乎无法代理它需要的任何东西。

我查看了集群的详细信息,发现 3 个组件有错误:

创建集群涉及大约。在 GCP Kubernetes Engine 中单击 3 次,所以我认为我没有搞砸这一步。

任何人都知道如何实现“最低可用性”?

更新 1

节点有足够的资源并且准备就绪。YAML 文件看起来不错。我在不同的区域/区域中有 2 个集群,并且都有上面列出的部署错误。2 豆荚不好。

另一个吊舱:

解决方案

不要让谷歌处理任何存储。取消选中“使用托管存储”并手动设置您自己的工件集合。您实际上不需要在这些字段中输入任何内容,因为无论如何都会启动管道。

0 投票
0 回答
69 浏览

tensorflow - 使用 GCP 上的管道自动部署 AI 平台模型

我有一些模型在 GCP 下的 AI 平台上运行,它们可以毫无问题地提供预测。现在我正在尝试使用 kubernets 管道自动化这个部署过程,以便定期更新模型版本。我尝试使用可用的示例创建一些管道,但这些都不是用于 AI 平台的。模型的训练由 AI-Platform Jobs 处理,参数如下:

  • 蟒蛇:3.7
  • 框架:张量流
  • 框架版本:2.1
  • 机器学习运行时版本:2.1

训练模型被模仿创建并保存在存储桶中。
如何使用管道自动执行此部署过程。如果这种自动化有另一种替代方法,我也想尝试一下。

0 投票
1 回答
197 浏览

google-kubernetes-engine - 无法将 Kubeflow 管道部署到 GKE 集群

我根据 Kubeflow Pipelines 的要求(https://cloud.google.com/ai-platform/pipelines/docs/configure-gke-cluster)创建了一个 GKE 集群,如下所示:

  • 3 个节点,至少 4GB 内存和两个 CPU
  • 具有角色的自定义服务帐户:logging.logWriter、monitoring.metricWriter、monitoring.viewer、storage.objectViewer

尝试在 Kubeflow Pipelines(来自 Marketplace)配置上选择集群时,它显示“OAuth 范围不足”。

我想也许我忽略了一个重要步骤,所以我尝试从 Kubeflow Pipelines 配置页面创建一个新集群。尝试选择此集群时,它仍然显示“OAuth 范围不足”。

是否有更多角色需要添加到服务帐户?

0 投票
2 回答
415 浏览

python - 使用带有 Python 和 PyCharm 的 Kubeflow Pipelines SDK 连接到 AI Platform Pipelines

在 PyCharm IDE 中使用 Windows 10 和 Python 3.9

我正在尝试使用以下代码列出管道:

我知道主机变量是正确的,因为我从 AI 平台管道复制了它。我遇到以下问题

我认为找不到该文件,因为该程序无法连接到 GCP 的 AI PLatform 管道。

我通过在 Pycharm 终端中执行以下命令安装了 Kubeflow Pipeline SDK:

  • conda create --name mlpipeline python=3.7
  • conda 激活 mlpipeline
  • pip3 安装 kfp --upgrade --user

当我运行时:

我收到以下命令错误:

我努力了

  • 安装 Google Cloud SDK 并初始化 gcloud(虽然当我运行命令时显示“找不到 Python”
  • 使用 gcloud 命令安装 kubectl 和 gsutil
0 投票
1 回答
92 浏览

google-cloud-ai-platform-pipelines - 如何在 AI Platform Pipelines 上使用 GPU

如何在 AI Platform Pipelines 上使用 GPU?我的管道在其中一个操作中使用了 set_gpu_limit(1) 但我最终得到了一个This step is in Pending state with this message: Unschedulable: 0/3 nodes are available: 3 Insufficient nvidia.com/gpu.错误。

0 投票
0 回答
197 浏览

google-cloud-ai-platform-pipelines - Minimal permissions to submit a kubeflow pipeline

Issue

I am trying to figure out what the minimum permissions are to run the following code:

Right now, I am getting this error:

Environment Setup

enter image description here

NOTES:

  • I am running both the create_run_from_pipeline_func code and the kubeflow instance inside the cluster.
  • If I give the prediction-kubeflow the Owner role, everything works

Questions:

  • What are the minimal permissions I need to give the service account to get this working?
  • How should I be debugging this? Is there somewhere I can look to get more info on that 401 error?
0 投票
1 回答
172 浏览

grpc - 从 Cloud Build 连接到 GKE 集群上的 gRPC 服务

我们使用了一个托管的 Kubeflow Pipelines (KFP) 实例,它是使用 GCP 的 AI Platform Pipelines 创建的,以及一个托管的 MySQL 实例,它是使用 Cloud SQL 创建的。我们还使用 Cloud Build 来构建和运行我们的 KFP 管道。我们想添加一个 Cloud Build 步骤,在 KFP 管道运行完成后,运行一个脚本,该脚本使用 MLMD API 来查询该管道运行的元数据。我们有一个 MLMD 脚本,可以在 GCP VM 上手动运行时成功查询元数据。问题是让该脚本在 Cloud Build 中运行。

第一种方法是mlmd.metadata_store.MetadataStore使用 MySQL 连接信息创建对象,例如,

这在 VM 上运行良好。但是,似乎需要 Cloud SQL 代理才能在 Cloud Build 中运行。以这个Cloud Functions 代码实验室为例,我能够在 Cloud Build 中运行一个脚本,该脚本使用 sqlalchemy 通过代理连接到 MySQL。但是,将 sqlalchemy 与代理连接的方法似乎与上述 MLMD API 不兼容。它看起来像这样:

第二种方法使用与 KFP 一起部署的 MLMD gRPC 服务。首先,我端口转发服务:

然后mlmd.metadata_store.MetadataStore使用 MLMD gRPC API 创建:

同样,这在 VM 上运行良好。但是,我不确定如何从 Cloud Build 连接到 gRPC 服务。我在 gRPC 和 Kubernetes 方面的经验是有限的,所以如果有一个简单的解决方案,我不会感到惊讶。

任何建议将不胜感激!