问题标签 [kubeflow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
192 浏览

python-3.x - 如何使用 Kubeflow Fairing 检索经过训练的模型的结果?

我正在使用Kubeflow 整流罩在 Kubernetes上训练TensorFlow模型。训练成功,但现在我想提供一个预测端点

如何从训练步骤中检索保存的 TensorFlow 会话(权重、偏差等),以便执行此操作?目前,训练步骤的结果保存在 Kubernetes 集群上运行的 Docker 容器中。

0 投票
1 回答
471 浏览

tensorflow - 如何在 TFX 管道中包含超参数调整?

TFX 管道是快速端到端模型开发的一个非常好的工具。但是,我还想在最终模型训练和评估之前包括超参数调整。

我的问题是,是否存在将调优纳入管道的最佳实践,如果有,是否可以公开获得?

0 投票
0 回答
384 浏览

kubernetes - 如何修复 PipelineParam 丢弃 Kubeflow Pipeline 中除名称以外的所有信息

我正在尝试使用 Kubeflow Pipelines 编写应用程序。将参数传递给管道(用 装饰的主要 python 函数)时,我遇到了麻烦@kfp.dsl.pipeline。参数应自动​​转换为具有名称、值等信息的 PipelineParam。但是,似乎除了名称之外的所有内容都被丢弃了。我在 Ubuntu 服务器上。

我尝试卸载/重新安装和更新 Kubeflow,尝试安装几个最新版本的 kfp(0.1.23、0.1.22、0.1.20、0.1.18),以及安装在我的本地机器上。

运行结果如下:

我应该在“值”字段中获得“/output.txt”,但填充的唯一字段是名称。这只发生在将参数传递给主管道函数时。当像这样直接传入 PipelineParam 时也会发生这种情况:

打印出来:{{pipelineparam:op=;name=output-file;value=;type=;}

0 投票
1 回答
439 浏览

python - 未能将对象编组到 TFJob;规范无效:未能将对象编组到 TFJob

我对 kubernetes 和 tensorflow 都比较陌生,试图从这个链接( https://github.com/learnk8s/distributed-tensorflow-on-k8s)运行基本的 kubeflow 分布式张量流示例。我目前正在运行具有 2 个节点(1 个主节点和 1 个工作节点)的本地裸机 kubernetes 集群。当我在 minikube 中运行它时一切正常(按照文档),训练和服务都成功运行。但是在本地集群上运行作业给了我这个错误!

任何帮助,将不胜感激。

对于此设置,我为作业使用的 nfs-storage 创建了一个 pod。因为本地集群没有启用动态配置,所以我手动创建了持久卷(使用的文件已附加)。

Nfs pod 存储文件:

持久卷和 PVC 文件:

TFJob 文件:

当我运行作业时,它给了我这个错误

经过一番搜索,有人指出“v1alpha1”可能已经过时了,所以你应该使用“v1beta1”(奇怪的是,这个“v1alpha1”正在与我的 minikube 设置一起使用,所以我很困惑!)。但是,尽管创建了 tfjob,但我没有看到任何新容器启动,而不是 minikube 运行,新 pod 成功启动和完成。当我描述 Tfjob 时,我看到了这个错误

由于唯一的区别是 nfs-storage,我认为我的手动设置可能有问题。如果我在某个地方搞砸了,请告诉我,因为我没有足够的背景!

0 投票
5 回答
2411 浏览

kubernetes - 如何从组件中获取运行的 id?

我正在对 Kubeflow Pipelines 进行一些实验,我有兴趣检索运行 ID 以保存有关管道执行的一些元数据。有什么办法可以从像这样的组件中做到这一点ContainerOp

0 投票
1 回答
551 浏览

continuous-integration - ML 模型部署 CI/CD

我在 DataBricks 上使用 MLFlow 训练模型,并将最终模型输出到 S3。然后,使用 Seldon-Core 将模型打包并部署到 AWS EKS。

我正在寻找通过从 S3 获取模型、将其打包到 docker 容器中并使用 Seldon-Core K8S 模板将其推送到 AWS EKS 来弥合差距的工具。

我相信似乎适合这项工作的工具是 Kubeflow Pipelines。其他竞争者是 Jenkins、Gitlab 和 TravisCI。

Kubeflow 是绝对适合这项工作的工具吗? Kubeflow 与其他人相比有哪些优缺点?如果有人已经做过研究,甚至可能建造了管道......

0 投票
2 回答
635 浏览

kubernetes - 如何访问部署在 Istio 和 Dex 后面的模型微服务?

我使用 Kubeflow (v0.6) 和 Seldon Core 构建了一个部署管道来为 ML 模型提供服务,但是现在部署了模型,我不知道如何通过身份验证。分层并使用服务。

我的 kubernetes 实例在裸机上,设置与此相同:https ://www.kubeflow.org/docs/started/getting-started-k8s/

我能够按照这些说明启动示例应用程序并为 staticClient 发出 IDToken,但是当我将令牌作为“授权:承载”传递时,我被重定向到 dex 登录页面。

(部分)Dex configMap:

当我尝试访问该服务时:

我错过了什么?:(

0 投票
1 回答
149 浏览

kubernetes - 在没有集群管理员权限的情况下安装 Kubeflow

我想在一个大型 kubernetes 集群下安装 Kubeflow,我是该集群的命名空间管理员,但不是集群管理员。

我一直在关注这个相关的 git 问题:

https://github.com/kubeflow/kubeflow/issues/1915

该问题表明 v0.6 可能提供此功能,但 git 问题最近尚未更新。现在 v0.6 发布了,我正在尝试追踪这是否可行,如果可以,如何在没有集群管理员权限的命名空间下安装 Kubeflow。

0 投票
1 回答
157 浏览

tensorflow - Nightly TF / Cloned TFX - 如何管理 Kubeflow 的图像?

当我访问我的 Kubeflow 端点以使用克隆的 TFX 上传和运行管道时,该过程在生成此消息的第一步开始挂起:

“此步骤处于待处理状态,并显示以下消息:ImagePullBackOff: Back-off pull image “tensorflow/tfx:0.14.0dev”,与创建的管道 yaml 文件中使用的图像相同。

我的总体目标是为 tfrecords 文件构建一个 ExampleGen,正如此处指南中所述。pip 中最新的 tfx 版本是 0.13,还没有包含必要的功能。出于这个原因,我安装 tf-nightly 并克隆/构建 tfx (dev-version 0.14)。这样做并安装一些额外的模块,例如 tensorflow_data_validation,我现在可以使用 tfx 组件创建我的管道,并包括一个用于 tfrecords 文件的 ExampleGen。我终于用 KubeflowRunner 构建了管道。然而,这会产生上述错误。

我现在想知道解决这个问题的适当方法。我想一种方法是自己使用指定版本构建图像,但也许有更实用的方法?

0 投票
1 回答
179 浏览

kubernetes - 在 Seldon Core 上将模型 A 的输出路由为模型 B 的输入

我正在测试 Seldon Core,想知道是否有一种简单的方法可以将模型 A 的输出路由为 Seldon Core 上模型 B 的输入。最佳做法是什么?