问题标签 [google-cloud-ai-platform-pipelines]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-cloud-platform - 如何将现有的 AI 平台管道部署升级到更新版本?
我目前正在运行 AI 平台管道 v0.2.5 的部署。我在 8 天前看到,容器注册表中添加了一个新版本 v0.5.1。这些版本之间有很多更改、修复等,我想更新我当前的部署。有没有一种简单的方法可以做到这一点,而不会丢失我的实验、管道运行等。
google-cloud-platform - AI Platform Pipelines 有时会随机失败
我已经使用 AI Platform Pipelines (v0.2.5) 好几个月了。我重建了 Pipelines 实例,因为我在控制台上找到了更新的版本 (v0.5.1)。我现在正忙于完成管道。
这很奇怪,因为似乎没有失败模式。
- Pods(Components) 随机失败。大多数 pod 成功完成,而有些失败。此外,失败的 pod 因执行时间而异。
- Pods 随机告诉我下面两个的错误消息。
- 文件“”,第 3 行,在 raise_from google.auth.exceptions.RefreshError中:(“无法从Google Compute Engine 元数据服务。状态:500 响应:\nb'Could not recurdively fetch uri\n'", <google.auth.transport.requests._Response object at 0x7fe5729c9650>)
在 GKE 集群工作负载标识已设置。我肯定确认了程序并且设置没有问题。尽管某些 pod 失败,但其他 pod 使用 Workload Identity 成功运行。当然,Google Cloud Credentials API 已启用。
我不知道这些问题是由更新 Pipelines 实例引起的。
有任何想法吗?
google-cloud-platform - 45 MB 模型对于 Google AI Platform 来说太大了
我正在尝试使用 AI 平台来部署 scikit-learn 管道。我尝试部署的 model.joblib 文件大小为 45 兆字节。
- 蟒蛇版本:3.7
- 框架:scikit-learn(==0.20.4)
- 单核 CPU、四核 CPU(测试版)
我使用以下命令进行部署以及 GUI
这是我正在使用的 setup.py 文件,以防问题可能出在库上。
我还尝试从 setup.py 中删除 pytorch 并使用http://storage.googleapis.com/cloud-ai-pytorch/readme.txt中的 torch 1.3,但这给我留下了同样的错误消息。
kubernetes - GCP AI 平台 - 管道 - 集群 - 没有最低可用性
我无法创建管道。我什至无法在 AI Platform Pipelines Dashboard 上加载示例/教程,因为它似乎无法代理它需要的任何东西。
我查看了集群的详细信息,发现 3 个组件有错误:
创建集群涉及大约。在 GCP Kubernetes Engine 中单击 3 次,所以我认为我没有搞砸这一步。
任何人都知道如何实现“最低可用性”?
更新 1
节点有足够的资源并且准备就绪。YAML 文件看起来不错。我在不同的区域/区域中有 2 个集群,并且都有上面列出的部署错误。2 豆荚不好。
另一个吊舱:
解决方案
不要让谷歌处理任何存储。取消选中“使用托管存储”并手动设置您自己的工件集合。您实际上不需要在这些字段中输入任何内容,因为无论如何都会启动管道。
tensorflow - 使用 GCP 上的管道自动部署 AI 平台模型
我有一些模型在 GCP 下的 AI 平台上运行,它们可以毫无问题地提供预测。现在我正在尝试使用 kubernets 管道自动化这个部署过程,以便定期更新模型版本。我尝试使用可用的示例创建一些管道,但这些都不是用于 AI 平台的。模型的训练由 AI-Platform Jobs 处理,参数如下:
- 蟒蛇:3.7
- 框架:张量流
- 框架版本:2.1
- 机器学习运行时版本:2.1
训练模型被模仿创建并保存在存储桶中。
如何使用管道自动执行此部署过程。如果这种自动化有另一种替代方法,我也想尝试一下。
google-kubernetes-engine - 无法将 Kubeflow 管道部署到 GKE 集群
我根据 Kubeflow Pipelines 的要求(https://cloud.google.com/ai-platform/pipelines/docs/configure-gke-cluster)创建了一个 GKE 集群,如下所示:
- 3 个节点,至少 4GB 内存和两个 CPU
- 具有角色的自定义服务帐户:logging.logWriter、monitoring.metricWriter、monitoring.viewer、storage.objectViewer
尝试在 Kubeflow Pipelines(来自 Marketplace)配置上选择集群时,它显示“OAuth 范围不足”。
我想也许我忽略了一个重要步骤,所以我尝试从 Kubeflow Pipelines 配置页面创建一个新集群。尝试选择此集群时,它仍然显示“OAuth 范围不足”。
是否有更多角色需要添加到服务帐户?
python - 使用带有 Python 和 PyCharm 的 Kubeflow Pipelines SDK 连接到 AI Platform Pipelines
在 PyCharm IDE 中使用 Windows 10 和 Python 3.9
我正在尝试使用以下代码列出管道:
我知道主机变量是正确的,因为我从 AI 平台管道复制了它。我遇到以下问题:
我认为找不到该文件,因为该程序无法连接到 GCP 的 AI PLatform 管道。
我通过在 Pycharm 终端中执行以下命令安装了 Kubeflow Pipeline SDK:
- conda create --name mlpipeline python=3.7
- conda 激活 mlpipeline
- pip3 安装 kfp --upgrade --user
当我运行时:
我收到以下命令错误:
我努力了
- 安装 Google Cloud SDK 并初始化 gcloud(虽然当我运行命令时显示“找不到 Python”)
- 使用 gcloud 命令安装 kubectl 和 gsutil
google-cloud-ai-platform-pipelines - 如何在 AI Platform Pipelines 上使用 GPU
如何在 AI Platform Pipelines 上使用 GPU?我的管道在其中一个操作中使用了 set_gpu_limit(1) 但我最终得到了一个This step is in Pending state with this message: Unschedulable: 0/3 nodes are available: 3 Insufficient nvidia.com/gpu.
错误。
google-cloud-ai-platform-pipelines - Minimal permissions to submit a kubeflow pipeline
Issue
I am trying to figure out what the minimum permissions are to run the following code:
Right now, I am getting this error:
Environment Setup
NOTES:
- I am running both the
create_run_from_pipeline_func
code and the kubeflow instance inside the cluster. - If I give the
prediction-kubeflow
theOwner
role, everything works
Questions:
- What are the minimal permissions I need to give the service account to get this working?
- How should I be debugging this? Is there somewhere I can look to get more info on that 401 error?
grpc - 从 Cloud Build 连接到 GKE 集群上的 gRPC 服务
我们使用了一个托管的 Kubeflow Pipelines (KFP) 实例,它是使用 GCP 的 AI Platform Pipelines 创建的,以及一个托管的 MySQL 实例,它是使用 Cloud SQL 创建的。我们还使用 Cloud Build 来构建和运行我们的 KFP 管道。我们想添加一个 Cloud Build 步骤,在 KFP 管道运行完成后,运行一个脚本,该脚本使用 MLMD API 来查询该管道运行的元数据。我们有一个 MLMD 脚本,可以在 GCP VM 上手动运行时成功查询元数据。问题是让该脚本在 Cloud Build 中运行。
第一种方法是mlmd.metadata_store.MetadataStore
使用 MySQL 连接信息创建对象,例如,
这在 VM 上运行良好。但是,似乎需要 Cloud SQL 代理才能在 Cloud Build 中运行。以这个Cloud Functions 代码实验室为例,我能够在 Cloud Build 中运行一个脚本,该脚本使用 sqlalchemy 通过代理连接到 MySQL。但是,将 sqlalchemy 与代理连接的方法似乎与上述 MLMD API 不兼容。它看起来像这样:
第二种方法使用与 KFP 一起部署的 MLMD gRPC 服务。首先,我端口转发服务:
然后mlmd.metadata_store.MetadataStore
使用 MLMD gRPC API 创建:
同样,这在 VM 上运行良好。但是,我不确定如何从 Cloud Build 连接到 gRPC 服务。我在 gRPC 和 Kubernetes 方面的经验是有限的,所以如果有一个简单的解决方案,我不会感到惊讶。
任何建议将不胜感激!