问题标签 [kubeflow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Kubeflow 管道不会创建任何 pod;未知状态
我开始使用 kubeflow 并创建了第一个小管道。不幸的是,它不起作用,所以当我尝试用我的管道创建一个运行时,什么也没有发生。它既不会创建 Kubernetes pod,也不会改变运行状态(它一直说“未知状态”)。我也看不到归属图或运行输出。
我的管道代码如下所示:
我正在使用安装了 MicroK8s 和 Kubeflow 的 Ubuntu 系统。
当我kubectl get pods --namespace=kubeflow
开始运行管道后,没有出现新的 pod。
在 kubeflow 仪表板中,我可以在“所有运行”部分看到运行,但没有状态(未知状态)和持续时间。
当我单击运行并转到配置时,我得到了这些配置:
你们中的一些人可以帮助我吗?
谢谢!
tensorflow - 如何设置本地模型存储库 - 带有 Minio 的 Tensorrt 推理服务器
嗨,我想设置 Kubeflow - NVIDIA TensorRT 推理服务器,存储库位于 MinIO 中。
我不知道如何更改gs://inference-server-model-store/tf_model_store来连接 Minio。
kubernetes - 在 kubeflow 上找不到 GOOGLE_APPLICATION_CREDENTIALS
我按照在 GCP 上构建 kubeflow的教程进行操作。
在最后一步,我卡在“检查您的培训组件的权限”。
设置好这些secretName 和secretMountPath 之后。
并运行
我得到了错误:
错误:在相应资源中找不到 var '{GOOGLE_APPLICATION_CREDENTIALS ~G_v1_ConfigMap {data.GOOGLE_APPLICATION_CREDENTIALS}}' 中指定的字段错误:没有传递给应用的对象
我在本地机器的 /var/secrets 中找不到我的 GOOGLE_APPLICATION_CREDENTIALS,但我认为 kubeflow 会根据此文档自动为我创建。
或者可能是因为我使用“使用用户名和密码进行身份验证”来验证 kubeflow?
tensorflow - Kubeflow 中的分布式张量流 - NotFoundError
我按照在 GCP 上构建 kubeflow的教程进行操作。
在最后一步,在部署代码并使用 CPU 进行训练之后。
分布式tensorflow遇到这个问题
tensorflow.python.framework.errors_impl.NotFoundError:/tmp/tmprIn1Il/model.ckpt-1_temp_a890dac1971040119aba4921dd5f631a;没有这样的文件或目录
[[Node: save/SaveV2 = SaveV2[dtypes=[DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_INT64], _device="/job:ps/replica:0/task :0/device:CPU:0"](save/ShardedFilename, save/SaveV2/tensor_names, save/SaveV2/shape_and_slices, conv_layer1/conv2d/bias, conv_layer1/conv2d/kernel, conv_layer2/conv2d/bias, conv_layer2/conv2d/kernel ,dense/bias,dense/kernel,dense_1/bias,dense_1/kernel,global_step)]]
我发现了类似的错误报告,但不知道如何解决。
python - Kubeflow Pipeline - 存储(传递)TF.Dataset
我正在玩 Kubeflow Pipelines,我想要实现的是有一个步骤(python 函数),我在其中创建一个Iterator
(generator
),我想从中创建一个TF.Dataset
Kubeflow 步骤之间的连接只允许具有原始类型的输入/输出,因此我无法将 Iterator 或 iterator-initialized-dataset 传递到下一步。
这是管道的概述
由于我只能传递原始类型,是否有可能存储迭代器初始化数据集?
数据在谷歌存储上,大到无法放入内存,有人怎么做到这一点?
我知道这是一个宽泛的问题,但由于 Kubeflow 很新,我在任何地方都找不到任何有用的资源。
kubeflow - Kubeflow 管道 - 将字符串传递给输出
通过 Kubeflow 管道中的输出发送字符串的最简单方法是什么?我想在我的第一个组件中创建一个时间戳,然后将该时间戳发送到管道中的每个连续步骤。
我见过的发送输出的唯一方法是通过文档中的文件路径。这是我的 component.yaml 文件的一部分,它显示了我的意思:
感兴趣的区域是输出中的“时间标签文件”。而不是创建一个文件,我只想发送一个字符串。只需将“type:GCSPath”更改为“type:String”就足够了,以便在我的管道步骤中,我将能够访问该字符串?
换句话说,我应该将字符串保存到组件内python代码中的文件路径还是有更好的方法?
kubeflow - 计划通过 API 支持 Kubeflow 管道上传?
是否可以使用 Kubeflow Pipelines Python SDK 通过 API 调用上传 Kubeflow Pipeline?
进行 API 调用有以下规范:https ://www.kubeflow.org/docs/pipelines/reference/api/kubeflow-pipeline-api-spec/
但是,当我尝试在 PostMan 中使用路由“/apis/v1beta1/pipelines/upload”上传管道时,出现以下错误:
我确定我需要添加一些 Authorization 标头,但在我走这条老路之前,我想知道是否有计划将此功能添加到 Python SDK。如果你们有任何想法或更好的方法来设置在 Kubeflow Pipelines UI 之外上传管道的请求,请告诉我!
tensorflow - 如何为 KubeFlow 上的 TFjob 指定/增加 CPU 使用率?
我有一个使用 Kustomize 在最新版本上运行 KubeFlow 的 GKE 设置。主 TFJob 拉取完整模型的 Docker 映像并运行它。我遇到了一个简单的问题,我希望增加 CPU 使用量,但似乎无法做到。
这是我需要在 Docker 模型代码、Kubernetes 配置、TFJob yamls 或其他地方指定的内容吗?
我尝试为容器的 cpu 资源指定最小大小和限制。我还尝试为主 pod 指定这些,但它似乎没有更新。
对此也没有太多文档或许多类似的问题。
docker - Kubeflow 管道错误:无法保存输出:没有这样的容器
在尝试设置我自己的 kubeflow 管道时,我在完成一个步骤并且应该保存输出时遇到了问题。完成步骤后,kubeflow 总是会抛出错误消息This step is in Error state with this message: failed to save outputs: Error response from daemon: No such container: <container-id>
首先,我认为我的管道会出错,但与先前存在的示例管道相同,例如对于“[Sample] Basic - Conditional execution”,我在第一步(翻转硬币)完成后收到此消息。
主容器显示输出:
所以它似乎已经成功运行。
等待容器显示以下输出:
因此,似乎 kubeflow 或我的 docker 守护程序存在问题。kubectl describe pods
创建的 pod的输出如下:
那么可能是 argoexec 容器镜像有问题?我看到它试图挂载/var/run/docker.sock。当我尝试cat
使用ls /var/run
. 当我尝试用它打开它时,vi
它提到权限被拒绝,所以我看不到文件的内部。这是该文件的常见行为还是它似乎有任何问题?
我真的很感激我能得到的任何帮助!感谢你们!
google-cloud-platform - 使用 cli 在 GCP CloudShell 上部署 kubeflow:/home/user/.kube/config: no such file or directory
我需要在 GCP 上部署 Kubeflowfor ML 管道和 TFX。不幸的是,我无法使用以下 UI 进行安装,因为我需要手动设置区域、网络和子网。
有一个很好的文档页面: https ://www.kubeflow.org/docs/gke/deploy/deploy-cli/
我尝试使用 OAuth 凭据和基本身份验证。我也尝试安装kfctl_v0.5.1_linux.tar.gz
和kfctl_v0.5.0_linux.tar.gz
. 我总是得到以下信息:
我已经安装了 kubectl:
显然 ~/.kube/config 不存在。哪个应用程序应该创建它?
我做了以下事情:
从家庭/用户/文件夹/kubeflow:
创建了一些文件:
一些检查:
我也尝试更新 kubectl
知道为什么我没有~/.kube/config
不存在吗?我尝试手动创建它,但后来我遇到了其他问题。我应该怎么做才能创建缺少的配置。除了使用 CloudShell 在 GCP 上使用 cli 部署 Kubelow 之外,还有其他推荐的方法吗?