0 投票

0 回答

63 浏览

google-cloud-platform - 如何将现有的 AI 平台管道部署升级到更新版本？

我目前正在运行 AI 平台管道 v0.2.5 的部署。我在 8 天前看到，容器注册表中添加了一个新版本 v0.5.1。这些版本之间有很多更改、修复等，我想更新我当前的部署。有没有一种简单的方法可以做到这一点，而不会丢失我的实验、管道运行等。

2020-05-28T10:09:43.967

0 投票

0 回答

96 浏览

google-cloud-platform - AI Platform Pipelines 有时会随机失败

我已经使用 AI Platform Pipelines (v0.2.5) 好几个月了。我重建了 Pipelines 实例，因为我在控制台上找到了更新的版本 (v0.5.1)。我现在正忙于完成管道。

这很奇怪，因为似乎没有失败模式。

Pods(Components) 随机失败。大多数 pod 成功完成，而有些失败。此外，失败的 pod 因执行时间而异。
Pods 随机告诉我下面两个的错误消息。

文件“”，第 3 行，在 raise_from google.auth.exceptions.RefreshError中：（“无法从Google Compute Engine 元数据服务。状态：500 响应：\nb'Could not recurdively fetch uri\n'", <google.auth.transport.requests._Response object at 0x7fe5729c9650>)

在 GKE 集群工作负载标识已设置。我肯定确认了程序并且设置没有问题。尽管某些 pod 失败，但其他 pod 使用 Workload Identity 成功运行。当然，Google Cloud Credentials API 已启用。

我不知道这些问题是由更新 Pipelines 实例引起的。

有任何想法吗？

google-cloud-platform kubeflow-pipelines google-cloud-ai-platform-pipelines

2020-07-19T13:16:35.560

0 投票

0 回答

156 浏览

google-cloud-platform - 45 MB 模型对于 Google AI Platform 来说太大了

我正在尝试使用 AI 平台来部署 scikit-learn 管道。我尝试部署的 model.joblib 文件大小为 45 兆字节。

蟒蛇版本：3.7
框架：scikit-learn(==0.20.4)
单核 CPU、四核 CPU（测试版）

我使用以下命令进行部署以及 GUI

这是我正在使用的 setup.py 文件，以防问题可能出在库上。

我还尝试从 setup.py 中删除 pytorch 并使用http://storage.googleapis.com/cloud-ai-pytorch/readme.txt中的 torch 1.3，但这给我留下了同样的错误消息。

google-cloud-platform gcp-ai-platform-training google-cloud-ai-platform-pipelines

2020-07-29T16:21:58.407

0 投票

1 回答

1361 浏览

kubernetes - GCP AI 平台 - 管道 - 集群 - 没有最低可用性

我无法创建管道。我什至无法在 AI Platform Pipelines Dashboard 上加载示例/教程，因为它似乎无法代理它需要的任何东西。

我查看了集群的详细信息，发现 3 个组件有错误：

创建集群涉及大约。在 GCP Kubernetes Engine 中单击 3 次，所以我认为我没有搞砸这一步。

任何人都知道如何实现“最低可用性”？

更新 1

节点有足够的资源并且准备就绪。YAML 文件看起来不错。我在不同的区域/区域中有 2 个集群，并且都有上面列出的部署错误。2 豆荚不好。

另一个吊舱：

解决方案

不要让谷歌处理任何存储。取消选中“使用托管存储”并手动设置您自己的工件集合。您实际上不需要在这些字段中输入任何内容，因为无论如何都会启动管道。

kubernetes google-cloud-ai-platform-pipelines

2020-09-17T22:22:40.830

0 投票

0 回答

69 浏览

tensorflow - 使用 GCP 上的管道自动部署 AI 平台模型

我有一些模型在 GCP 下的 AI 平台上运行，它们可以毫无问题地提供预测。现在我正在尝试使用 kubernets 管道自动化这个部署过程，以便定期更新模型版本。我尝试使用可用的示例创建一些管道，但这些都不是用于 AI 平台的。模型的训练由 AI-Platform Jobs 处理，参数如下：

蟒蛇：3.7
框架：张量流
框架版本：2.1
机器学习运行时版本：2.1

训练模型被模仿创建并保存在存储桶中。
如何使用管道自动执行此部署过程。如果这种自动化有另一种替代方法，我也想尝试一下。

tensorflow kubernetes google-cloud-platform google-ai-platform google-cloud-ai-platform-pipelines

2020-11-10T03:33:01.017

0 投票

1 回答

197 浏览

google-kubernetes-engine - 无法将 Kubeflow 管道部署到 GKE 集群

我根据 Kubeflow Pipelines 的要求（https://cloud.google.com/ai-platform/pipelines/docs/configure-gke-cluster）创建了一个 GKE 集群，如下所示：

3 个节点，至少 4GB 内存和两个 CPU
具有角色的自定义服务帐户：logging.logWriter、monitoring.metricWriter、monitoring.viewer、storage.objectViewer

尝试在 Kubeflow Pipelines（来自 Marketplace）配置上选择集群时，它显示“OAuth 范围不足”。

我想也许我忽略了一个重要步骤，所以我尝试从 Kubeflow Pipelines 配置页面创建一个新集群。尝试选择此集群时，它仍然显示“OAuth 范围不足”。

是否有更多角色需要添加到服务帐户？

google-kubernetes-engine kubeflow kubeflow-pipelines google-cloud-ai google-cloud-ai-platform-pipelines

2020-11-13T14:27:21.233

0 投票

2 回答

415 浏览

python - 使用带有 Python 和 PyCharm 的 Kubeflow Pipelines SDK 连接到 AI Platform Pipelines

在 PyCharm IDE 中使用 Windows 10 和 Python 3.9

我正在尝试使用以下代码列出管道：

我知道主机变量是正确的，因为我从 AI 平台管道复制了它。我遇到以下问题：

我认为找不到该文件，因为该程序无法连接到 GCP 的 AI PLatform 管道。

我通过在 Pycharm 终端中执行以下命令安装了 Kubeflow Pipeline SDK：

conda create --name mlpipeline python=3.7
conda 激活 mlpipeline
pip3 安装 kfp --upgrade --user

当我运行时：

我收到以下命令错误：

我努力了

安装 Google Cloud SDK 并初始化 gcloud（虽然当我运行命令时显示“找不到 Python”）
使用 gcloud 命令安装 kubectl 和 gsutil

python kubernetes kubeflow kubeflow-pipelines google-cloud-ai-platform-pipelines

2020-11-25T10:17:37.263

0 投票

1 回答

92 浏览

google-cloud-ai-platform-pipelines - 如何在 AI Platform Pipelines 上使用 GPU

如何在 AI Platform Pipelines 上使用 GPU？我的管道在其中一个操作中使用了 set_gpu_limit(1) 但我最终得到了一个This step is in Pending state with this message: Unschedulable: 0/3 nodes are available: 3 Insufficient nvidia.com/gpu.错误。

google-cloud-ai-platform-pipelines

2020-12-16T18:00:15.757

0 投票

0 回答

197 浏览

google-cloud-ai-platform-pipelines - Minimal permissions to submit a kubeflow pipeline

Issue

I am trying to figure out what the minimum permissions are to run the following code:

Right now, I am getting this error:

Environment Setup

NOTES:

I am running both the create_run_from_pipeline_func code and the kubeflow instance inside the cluster.
If I give the prediction-kubeflow the Owner role, everything works

Questions:

What are the minimal permissions I need to give the service account to get this working?
How should I be debugging this? Is there somewhere I can look to get more info on that 401 error?

google-cloud-ai-platform-pipelines

2021-01-28T22:25:58.247

0 投票

1 回答

172 浏览

grpc - 从 Cloud Build 连接到 GKE 集群上的 gRPC 服务

我们使用了一个托管的 Kubeflow Pipelines (KFP) 实例，它是使用 GCP 的 AI Platform Pipelines 创建的，以及一个托管的 MySQL 实例，它是使用 Cloud SQL 创建的。我们还使用 Cloud Build 来构建和运行我们的 KFP 管道。我们想添加一个 Cloud Build 步骤，在 KFP 管道运行完成后，运行一个脚本，该脚本使用 MLMD API 来查询该管道运行的元数据。我们有一个 MLMD 脚本，可以在 GCP VM 上手动运行时成功查询元数据。问题是让该脚本在 Cloud Build 中运行。

第一种方法是mlmd.metadata_store.MetadataStore使用 MySQL 连接信息创建对象，例如，

这在 VM 上运行良好。但是，似乎需要 Cloud SQL 代理才能在 Cloud Build 中运行。以这个Cloud Functions 代码实验室为例，我能够在 Cloud Build 中运行一个脚本，该脚本使用 sqlalchemy 通过代理连接到 MySQL。但是，将 sqlalchemy 与代理连接的方法似乎与上述 MLMD API 不兼容。它看起来像这样：

第二种方法使用与 KFP 一起部署的 MLMD gRPC 服务。首先，我端口转发服务：

然后mlmd.metadata_store.MetadataStore使用 MLMD gRPC API 创建：

同样，这在 VM 上运行良好。但是，我不确定如何从 Cloud Build 连接到 gRPC 服务。我在 gRPC 和 Kubernetes 方面的经验是有限的，所以如果有一个简单的解决方案，我不会感到惊讶。

任何建议将不胜感激！

grpc google-cloud-sql google-cloud-build kubeflow-pipelines google-cloud-ai-platform-pipelines

2021-02-17T17:06:40.873

问题标签 [google-cloud-ai-platform-pipelines]

Issue

Environment Setup

Questions:

Reference