问题标签 [kubeflow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
238 浏览

google-cloud-platform - 是否可以在不删除的情况下停止 Google Cloud 上的 Kubeflow?

我正在为我的团队评估 Kubeflow,我想设置它以便我们可以协作使用它。我们的资源是有限的。我按照此处所述在 Google Cloud 上设置 Kubeflow 。这工作得很好,直到我决定以后我想停止它的工作。但是,没有文档或选项可以“停止” Kubeflow 部署,只能将其删除。所以我让它运行,因为我希望能够在第二天继续工作,而第二天我已经被收取了 10 美元。所以我不得不删除它,我将不得不从头开始重复一切。

我习惯于 AWS,通常可以选择停止实施,而我对 Google Cloud 还很陌生。我更喜欢使用 AWS,但我看到大多数高级 Kubeflow 文档都假设 Google Cloud。

有没有办法在 Google Cloud 上停止 Kubeflow 或保存其状态而不删除它?或者你会怎么做?

0 投票
1 回答
152 浏览

tensorflow - 哪个 TFX 编排器实际上是 TFX 的标准?

我是 tensorflow 的初学者,现在在一个需要为 tensorflow 部署分布式生产平台的项目中。如果我能得到一些帮助来澄清我的想法,我将不胜感激。

阅读在线文档youtube,我了解到分布式生产的主要组件如下。

使用 python 3.x 管道构建的 TFX(Tensorflow 扩展):Apache Beam Orchestrator:Apache AirflowKubeflow

但是对于编排器,我认为这两个组件各有利弊,但哪一个是事实上的标准TFX

该指南主要关注Airflow所以我认为这可能是一个,但kubeflow似乎是的,所以它可能是新的挑战者。

谢谢,于

0 投票
1 回答
882 浏览

kubernetes - 将 MLFlow 与 Kubeflow 集成

我正在尝试将 MLFlow 服务器与 GCP 上的 Kubeflow 集群集成。为此,我创建了一个 MLFlow 部署并使用负载均衡器公开它。

机器学习代码作为 Pod 部署在 Kubeflow 集群上。MLflow 服务器 IP:PORT 用于记录参数(例如超参数)和工件(例如模型)。

问题是工件仅记录在 docker 映像(带有机器学习代码的 pod)中。另一方面,在提供 MLflow 服务器 IP:PORT 后,参数日志记录工作得非常好。

这是一个屏幕截图。 在此处输入图像描述

0 投票
1 回答
129 浏览

kubernetes - 带有 GPU 的 GCP kubernetes 节点过早被抢占

我有一个带有自定义 GPU 驱动的抢占式节点池的 kubeflow k8s 集群us-central1-a在此处输入图像描述

我在这些 GPU 节点上运行 kubeflow 笔记本服务器。由于某些神秘的原因,节点compute.instances.preempted在启动后很快(5-10 分钟)就会收到消息: 在此处输入图像描述

为什么会这样?

0 投票
2 回答
1298 浏览

python - 如何在 kubeflow 管道中传递环境变量?

我希望通过gcr.io/******/serve_model:lat5Image 访问变量,这是一个参数gcr.io/******/deployservice:lat2

最初我尝试将变量作为参数传递,但它不起作用,所以我试图将它作为环境变量传递。
我的环境变量将是GCP存储桶的 url,我将从那里serve_model访问.sav模型文件。

0 投票
1 回答
1772 浏览

python - kubeflow ParallelFor 使用之前的 containerop 输出

我可以使用创建一个静态 for 循环

如何使用 acontainer_op.output作为输入ParallelFor
假设第一个容器输出一个整数n,然后我想运行ParallelForn 次。

像这样的尝试不起作用:

我正在尝试刺激并行 pythonrange(n)函数。

0 投票
1 回答
164 浏览

machine-learning - Kubeflow 是否有助于以分布式方式运行 ML

我正在浏览 Kubeflow 文档几天,任何人都可以帮助我回答以下问题。

  1. Kubeflow 是否有助于以分布式方式运行任何 ML 算法?
  2. Kubeflow 和 Spark ML 有什么区别?
0 投票
1 回答
1344 浏览

kubernetes - 在 minikube 上使用 kubeflow 从私有谷歌容器注册表中提取图像

我们无法让上传到 Kubeflow 的管道中的容器访问存储在 google 容器注册表中的私有自定义 docker 映像。我们在 minikube 上运行的 kubernetes 集群之上运行 kubeflow。有人可以帮助我们了解如何将访问令牌/服务帐户添加到 Kubeflow 部署中吗?我们已经阅读了一些文档,它们在自定义 Kubernetes 部署上实现了这一点,但在 Kubeflow 部署上却没有。

我们在 Kubeflow 上运行管道时遇到的错误是: 此步骤处于待处理状态,并显示以下消息:ImagePullBackOff: Back-off pull image

这是调用图像的管道代码。 在此处输入图像描述

谢谢!!

0 投票
4 回答
2408 浏览

python - kubeflow 管道动态输出列表作为输入参数

我在动态列表上使用 ParallelFor。我想从循环中收集所有输出,并将它们传递给另一个 ContainerOp。
像下面这样的东西,显然不起作用,因为outputs列表是静态的。

0 投票
0 回答
211 浏览

kubernetes - 如何将 GCP 机密附加到 Kubernetes 服务帐户?

如何使用从谷歌云 JSON 文件创建的秘密对象到服务帐户?我已经minikf在VM上并kubeflow安装了。我正在尝试在Kubernetes 集群中使用Jupyter笔记本制作一个容器。minikf笔记本可以使用 PodDefault 访问 GCP,但notebook自动启动的 kanico 容器无法访问 GCP。jupyter notebook中构建容器的代码如下:

我得到错误:

以 Kaniko 开头的 pod 名称被创建并失败,因为它无法访问谷歌云存储: 在此处输入图像描述

Jupyter notebook 能够利用我的秘密对象“user-gcp-sa”的证明是上面的代码正在 GCS 上准备文件: 在此处输入图像描述