问题标签 [kubeflow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
kubernetes - kubeflow - jupyter pod 在某个时间产卵后卡住了
我是 Kubernetes 世界的新手。我正在尝试在集群内部署 jupyter notebook。我参考官方文档创建了 Kubernetes 集群。笔记本说,一旦产卵完成,它将重定向到主页。但是 jupyter pod 在某个时间产卵后卡住了。
我在 GitHub 中提到了类似的问题,但找不到答案。引用的链接是Github Link
从问题的评论中可以看出,jupyter 集线器是否使用永久磁盘。我运行了这些命令,似乎附加了永久磁盘。
kubectl -n 默认获取 po,svc,deploy,pv,pvc -o 宽
这是上述命令的结果,据我所知,永久磁盘已成功附加!我真的不知道它在内部是如何工作的。所以,我无法弄清楚这里有什么问题。任何人都可以解释问题或提供kubernetes架构链接的链接吗?这对我理解 Kubernetes 背后的核心概念会有帮助。
以下是用于获取有关 pod 的描述的命令
kubectl 描述 pod pod_name
获取yaml文件
kubectl 获取 pod pod_name -o yaml
kubernetes - AWS/On-prem 上的 Kubeflow 管道目前是否可行?
我正在测试 kubeflow 管道,并希望在 AWS/On-prem 上使用它,但我看到了对文档的以下评论。我应该等待将它与 AWS/on-prem 一起使用吗?
由于 kubeflow/pipelines#345 和 kubeflow/pipelines#337,Kubeflow Pipelines 依赖于 Google Cloud Platform (GCP) 服务,非 GKE 集群目前不支持某些功能。
kubernetes - 如何在 Kubeflow 中使用大量数据?
我在 GCS 中存储了 1TB 的图像(数据分为 3 个类)。我想在 Kubeflow 中根据这些数据训练自定义张量流模型。目前,我有用于训练和持久化模型的管道组件,但我不知道如何正确地将这些数据输入分类器。
在我看来,每次我运行(可能失败)时,管道都不是执行此操作的正确方法,而是从 GCS(gsutil cp / 其他)下载这些数据。
如何在 Kubeflow 管道中使用大量数据而无需每次都下载?如何使用 Kubeflow DSL 表达对这些数据的访问?
kubernetes - Kubeflow Pipeline in serving model
I'm beginning to dig into kubeflow pipelines for a project and have a beginner's question. It seems like kubeflow pipelines work well for training, but how about serving in production?
I have a fairly intensive pre processing pipeline for training and must apply that same pipeline for production predictions. Can I use something like Seldon Serving to create an endpoint to kickoff the pre processing pipeline, apply the model, then to return the prediction? Or is the better approach to just put everything in one docker container?
kubernetes - 权限错误:服务帐户无权访问 cloud-ml 平台
我正在运行 Kubeflow 管道(docker 方法),集群使用端点导航到仪表板。按照此链接Deploy Kubeflow中提到的说明创建集群。一切都已成功创建,集群生成了端点并且它工作得很好。
端点链接类似于https://appname.endpoints.projectname.cloud.goog。
除了最后一个,管道的每个工作负载都运行良好。在最后一个工作负载中,我正在尝试向 cloud-ml 引擎提交作业。但它记录显示该应用程序无权访问该项目。这是日志的完整图像。
错误:(gcloud.ml-engine.versions.create)PERMISSION_DENIED:请求的身份验证范围不足。
错误:(gcloud.ml-engine.jobs.submit.prediction)用户 [clustername@project_name.iam.gserviceaccount.com] 没有访问项目 [project_name] 的权限(或者它可能不存在):请求的身份验证范围不足.
从日志中可以清楚地看出,此服务帐户无权访问项目本身。但是,我尝试向此服务帐户授予 Cloud ML 服务的访问权限,但它仍然抛出相同的错误。
向此应用程序提供 Cloud ML 服务凭据的任何其他方式。
kubeflow - Kubeflow 管道中的多个图像组件
我想在 Kubeflow 管道中编写一个具有 2 个组件的管道:A 和 B
A 的输出是图像路径列表。
我想为每个图像路径运行一个 docker 图像 (B)
从我看到的dsl.ContainerOp
B 可以等待 A 的输出,但我不知道如何创建 B 的多个实例
kubernetes - 使用查看器将 Tensorboard 集成到 KUBEFLOW 管道中
我正在使用 KUBEFLOW 管道来训练带有 TF 的 KERAS 模型,并且我从一个非常简单的管道开始。
模型训练良好,管道正常工作,但我无法正确使用 TENSOBOARD 的输出查看器。从文档中阅读,似乎只需在训练容器的根路径中添加一个正确的 json 文件/mlpipeline-ui-metadata.json
(没看错)。
这是我的配置方式:
mlpipeline-ui-metadata.json (直接从 DOCKERFILE 添加)
管道
我已经尝试访问正在运行的 POD ( kubectl exec ..
) 并且我验证了该文件实际上是在正确的位置。
顺便说一句,我使用的是 KUBEFLOW v0.5
kubernetes - 如何正确配置以接收 Seldon Core python 客户端中的预测结果?
我正在检查 Minikube 上的 Seldon Core,并已成功在集群上部署了模型。我用下面的代码进行了测试:
并得到如下所示的正确预测结果。
但是,当我尝试使用 python 客户端时,
我得到了这个错误。
有人可以帮我找出问题所在吗?