问题标签 [kubeflow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
kubernetes - Kubeflow 管道终止通知
我尝试添加一个逻辑,当管道由于某些错误而终止时将发送松弛通知。我试图用ExitHandler
. 但是,似乎ExitHandler
不能依赖任何操作。你有什么好主意吗?
kubernetes - 裸机设置上的 Kubeflow 设置?
一直在尝试在共享服务器(即不是我的笔记本电脑)上的裸机(prem 等)上设置 Kubeflow。我遵循Kubeflow 部署和 kfctl_k8s_istio设置说明,一切都很好。
在“访问 Kubeflow 仪表板”下,它说
请参阅入口网关指南。
这只会导致更多问题,我不知道答案,因为我没有编写设置,即
- UI 的入口端口是什么?
kubectl get svc istio-ingressgateway -n istio-system
返回一个拥抱列表?? - 如果外部IP是我该怎么办
<none>
?服务器在本地网络上有一个 IP,即 192.168.1.69 - 我假设
kfctl
没有设置外部负载平衡器? - 托管 Web UI 的容器是什么?
Gateway
和yaml应该是什么VirtualService
样子?
我想使用 Kubeflow 并且必须了解 Istio 的工作原理?为什么?
python - 使用没有管道的 Kubeflow 保存模型工件
到目前为止,我在我的 jupyterhub 环境中使用 mlflow 进行模型跟踪,我觉得很容易通过调用 run 来跟踪 mlflow 中的工件:
我现在要搬到 Kubeflow,不确定是否可以在不创建管道的情况下在这里做同样的事情。我能找到的是:
有什么方法可以跟踪 Kubeflow 中的 mlflow 等实验吗?
python - 是否有 Python 模块/(函数)可以设置 dsl ContainerOp(Kubeflow 管道)的 CPU 数量?
我已经构建了一个 Jupyter 笔记本,它将一个 Jupyter 笔记本作为管道的一个组件部署到 Kubeflow 管道服务中。我想知道是否有办法为部署笔记本的 ContainerOp 指定 CPU 和内存的数量。
目标:当我打开并读取 tar.gz 文件的内容时,让 cpu 和 mem 在 yaml 文件中显示为参数
我尝试使用多处理库,但我发布的代码示例(隐藏的路径和图像)看起来太愚蠢了,无法正确。而且这不是我老板想要的
这不会给出 yaml 文件中使用的 cpu 数量
kubernetes - 如何在 Kubeflow 中安排作业?
我正在 AWS EKS 上设置 Kubeflow 集群,Kubeflow 中是否有允许我们自动安排作业的本地方式,即(每 X 小时运行一次工作流,每 X 小时获取一次数据等)
我试图寻找其他的东西,比如 Airflow,但我不确定它是否能很好地与 Kubeflow 环境集成。
kubeflow - 在 Kubeflow Pipelines 中,如何将元素列表发送到轻量级 python 组件?
我正在尝试将元素列表作为 PipelineParameter 发送到轻量级组件。
这是重现该问题的示例。这是功能:
如果我用这个执行它:
它的行为符合预期:
但是如果我将它包装在一个操作中并设置一个管道:
然后运行管道:
然后似乎在某些时候我的列表被转换为字符串!
kubernetes - 如何在 kubeflow 中为用户 pvc 指定存储类
我正在尝试将存储类附加到由单个用户 pod 为 kubeflow 中的 jupyter 笔记本创建的所有 PVC 请求。
我尝试编辑一些值并指定 storage_class。但它都不起作用,每当出现新的 pvc 时,它都没有存储类名称。
期望的结果是,每当一个 pvc 的用户 pod 出现时,它应该附有存储类的名称。请帮助解决这个问题。我从最后一天就被困住了
kubeflow - 如何跳过 kubeflow 管道中已经运行的步骤?
我正在 Kubeflow 中构建 ML 管道,我有一个问题。有什么开箱即用的东西可以让我配置我的管道,这样如果一个步骤的输出存在,它就不会重新运行?我已经想到了手动执行此操作的方法(在我编译管道时检查现有输出,或者有一个初始步骤返回要运行的步骤列表,或者手动配置哪些步骤作为输入参数运行)但我找不到处理这个问题的原生方式。
对我来说,常见的用例是重新运行模型步骤而不重新运行任何数据预处理;但不必有一个特定的“模型开发”管道,该管道与包含数据预处理步骤的更一般的产品不同。或者也许我正在评估阶段进行迭代,我什至不需要重新培训,但我仍然想使用相同的管道。现在,同事们正在使用几个管道,每个管道都从不同的步骤开始,以解决这个问题。
我是从 map-reduce 的角度来看的,这是微不足道的——框架会自动检测存在哪些输出并且不会将它们重建为默认值,但可以轻松地为您提供重建部分或全部输出的选项。也许这会影响我使用 kubeflow 的方式?
任何帮助表示赞赏!
kubeflow - 如何在 python 中的 Kubeflow 容器化组件之间传递数据或文件
我正在探索将 Kubeflow 作为部署和连接典型 ML 管道的各种组件的选项。我使用 docker 容器作为 Kubeflow 组件,到目前为止,我一直无法成功地使用ContainerOp.file_outputs
对象在组件之间传递结果。
根据我对该功能的理解,创建并保存到声明为file_outputs
组件之一的文件应该会导致它持久存在并可供以下组件读取。
这就是我试图在我的管道 python 代码中声明它的方式:
在data-collector.py
组件的 python 代码中,我获取数据集,然后将其写入output.txt
. 我能够从同一组件内的文件中读取,但不能data-preprocessor.py
在我获得FileNotFoundError
.
是对file_outputs
基于容器的 Kubeflow 组件使用 invalid 还是我在代码中错误地使用了它?如果在我的情况下不是一个选项,是否可以在管道声明 python 代码中以编程方式创建 Kubernetes 卷并使用它们而不是file_outputs
?
kubernetes - Kubeflow Mnist 示例 - 无法识别“STDIN”:版本“kubeflow.org/v1beta2”中的种类“TFJob”没有匹配项
在此处遵循 kubeflow mnist 示例指南
运行时,kustomize build . | kubectl apply -f -
configmap/mnist-map-training-45h47275m7 unchanged
error: unable to recognize "STDIN": no matches for kind "TFJob" in version "kubeflow.org/v1beta2"
我一直在阅读 github repo上的几个线程,但找不到解决方案。寻找任何关于我能做什么的建议
大多数线程似乎都可以通过更改为我正在使用的 kustomize 版本 2.03 来解决
Version: {KustomizeVersion:2.0.3 GitCommit:a6f65144121d1955266b0cd836ce954c04122dc8 BuildDate:2019-03-05T20:37:42Z GoOs:linux GoArch:amd64}
我跑了kubectl describe crd tfjobs.kubeflow.org
,这就是返回的