问题标签 [kubeflow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
314 浏览

python - Kubeflow 管道不会创建任何 pod;未知状态

我开始使用 kubeflow 并创建了第一个小管道。不幸的是,它不起作用,所以当我尝试用我的管道创建一个运行时,什么也没有发生。它既不会创建 Kubernetes pod,也不会改变运行状态(它一直说“未知状态”)。我也看不到归属图或运行输出。

我的管道代码如下所示:

我正在使用安装了 MicroK8s 和 Kubeflow 的 Ubuntu 系统。

当我kubectl get pods --namespace=kubeflow开始运行管道后,没有出现新的 pod。

在 kubeflow 仪表板中,我可以在“所有运行”部分看到运行,但没有状态(未知状态)和持续时间。

当我单击运行并转到配置时,我得到了这些配置:

你们中的一些人可以帮助我吗?

谢谢!

0 投票
1 回答
154 浏览

tensorflow - 如何设置本地模型存储库 - 带有 Minio 的 Tensorrt 推理服务器

嗨,我想设置 Kubeflow - NVIDIA TensorRT 推理服务器,存储库位于 MinIO 中。

我不知道如何更改gs://inference-server-model-store/tf_model_store来连接 Minio。

0 投票
2 回答
261 浏览

kubernetes - 在 kubeflow 上找不到 GOOGLE_APPLICATION_CREDENTIALS

我按照在 GCP 上构建 kubeflow的教程进行操作。

在最后一步,我卡在“检查您的培训组件的权限”。

设置好这些secretName 和secretMountPath 之后。

并运行

我得到了错误:

错误:在相应资源中找不到 var '{GOOGLE_APPLICATION_CREDENTIALS ~G_v1_ConfigMap {data.GOOGLE_APPLICATION_CREDENTIALS}}' 中指定的字段错误:没有传递给应用的对象

我在本地机器的 /var/secrets 中找不到我的 GOOGLE_APPLICATION_CREDENTIALS,但我认为 kubeflow 会根据此文档自动为我创建。

或者可能是因为我使用“使用用户名和密码进行身份验证”来验证 kubeflow?

0 投票
1 回答
79 浏览

tensorflow - Kubeflow 中的分布式张量流 - NotFoundError

我按照在 GCP 上构建 kubeflow的教程进行操作。

在最后一步,在部署代码并使用 CPU 进行训练之后。

分布式tensorflow遇到这个问题

tensorflow.python.framework.errors_impl.NotFoundError:/tmp/tmprIn1Il/model.ckpt-1_temp_a890dac1971040119aba4921dd5f631a;没有这样的文件或目录
[[Node: save/SaveV2 = SaveV2[dtypes=[DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_INT64], _device="/job:ps/replica:0/task :0/device:CPU:0"](save/ShardedFilename, save/SaveV2/tensor_names, save/SaveV2/shape_and_slices, conv_layer1/conv2d/bias, conv_layer1/conv2d/kernel, conv_layer2/conv2d/bias, conv_layer2/conv2d/kernel ,dense/bias,dense/kernel,dense_1/bias,dense_1/kernel,global_step)]]

我发现了类似的错误报告,但不知道如何解决。

0 投票
2 回答
276 浏览

python - Kubeflow Pipeline - 存储(传递)TF.Dataset

我正在玩 Kubeflow Pipelines,我想要实现的是有一个步骤(python 函数),我在其中创建一个Iteratorgenerator),我想从中创建一个TF.Dataset

Kubeflow 步骤之间的连接只允许具有原始类型的输入/输出,因此我无法将 Iterator 或 iterator-initialized-dataset 传递到下一步。

这是管道的概述

由于我只能传递原始类型,是否有可能存储迭代器初始化数据集?

数据在谷歌存储上,大到无法放入内存,有人怎么做到这一点?

我知道这是一个宽泛的问题,但由于 Kubeflow 很新,我在任何地方都找不到任何有用的资源。

0 投票
0 回答
174 浏览

kubeflow - Kubeflow 管道 - 将字符串传递给输出

通过 Kubeflow 管道中的输出发送字符串的最简单方法是什么?我想在我的第一个组件中创建一个时间戳,然后将该时间戳发送到管道中的每个连续步骤。

我见过的发送输出的唯一方法是通过文档中的文件路径。这是我的 component.yaml 文件的一部分,它显示了我的意思:

感兴趣的区域是输出中的“时间标签文件”。而不是创建一个文件,我只想发送一个字符串。只需将“type:GCSPath”更改为“type:String”就足够了,以便在我的管道步骤中,我将能够访问该字符串?

换句话说,我应该将字符串保存到组件内python代码中的文件路径还是有更好的方法?

0 投票
1 回答
295 浏览

kubeflow - 计划通过 API 支持 Kubeflow 管道上传?

是否可以使用 Kubeflow Pipelines Python SDK 通过 API 调用上传 Kubeflow Pipeline?

进行 API 调用有以下规范:https ://www.kubeflow.org/docs/pipelines/reference/api/kubeflow-pipeline-api-spec/

但是,当我尝试在 PostMan 中使用路由“/apis/v1beta1/pipelines/upload”上传管道时,出现以下错误:

我确定我需要添加一些 Authorization 标头,但在我走这条老路之前,我想知道是否有计划将此功能添加到 Python SDK。如果你们有任何想法或更好的方法来设置在 Kubeflow Pipelines UI 之外上传管道的请求,请告诉我!

0 投票
1 回答
231 浏览

tensorflow - 如何为 KubeFlow 上的 TFjob 指定/增加 CPU 使用率?

我有一个使用 Kustomize 在最新版本上运行 KubeFlow 的 GKE 设置。主 TFJob 拉取完整模型的 Docker 映像并运行它。我遇到了一个简单的问题,我希望增加 CPU 使用量,但似乎无法做到。

这是我需要在 Docker 模型代码、Kubernetes 配置、TFJob yamls 或其他地方指定的内容吗?

我尝试为容器的 cpu 资源指定最小大小和限制。我还尝试为主 pod 指定这些,但它似乎没有更新。

对此也没有太多文档或许多类似的问题。

0 投票
1 回答
4257 浏览

docker - Kubeflow 管道错误:无法保存输出:没有这样的容器

在尝试设置我自己的 kubeflow 管道时,我在完成一个步骤并且应该保存输出时遇到了问题。完成步骤后,kubeflow 总是会抛出错误消息This step is in Error state with this message: failed to save outputs: Error response from daemon: No such container: <container-id>

首先,我认为我的管道会出错,但与先前存在的示例管道相同,例如对于“[Sample] Basic - Conditional execution”,我在第一步(翻转硬币)完成后收到此消息。

主容器显示输出:

所以它似乎已经成功运行。

等待容器显示以下输出:

因此,似乎 kubeflow 或我的 docker 守护程序存在问题。kubectl describe pods创建的 pod的输出如下:

那么可能是 argoexec 容器镜像有问题?我看到它试图挂载/var/run/docker.sock。当我尝试cat使用ls /var/run. 当我尝试用它打开它时,vi它提到权限被拒绝,所以我看不到文件的内部。这是该文件的常见行为还是它似乎有任何问题?

我真的很感激我能得到的任何帮助!感谢你们!

0 投票
1 回答
670 浏览

google-cloud-platform - 使用 cli 在 GCP CloudShell 上部署 kubeflow:/home/user/.kube/config: no such file or directory

我需要在 GCP 上部署 Kubeflowfor ML 管道和 TFX。不幸的是,我无法使用以下 UI 进行安装,因为我需要手动设置区域、网络和子网。 在此处输入图像描述

有一个很好的文档页面: https ://www.kubeflow.org/docs/gke/deploy/deploy-cli/

我尝试使用 OAuth 凭据和基本身份验证。我也尝试安装kfctl_v0.5.1_linux.tar.gzkfctl_v0.5.0_linux.tar.gz. 我总是得到以下信息:

我已经安装了 kubectl:

显然 ~/.kube/config 不存在。哪个应用程序应该创建它?

我做了以下事情:

从家庭/用户/文件夹/kubeflow:

创建了一些文件:

一些检查:

我也尝试更新 kubectl

知道为什么我没有~/.kube/config不存在吗?我尝试手动创建它,但后来我遇到了其他问题。我应该怎么做才能创建缺少的配置。除了使用 CloudShell 在 GCP 上使用 cli 部署 Kubelow 之外,还有其他推荐的方法吗?