问题标签 [kubeflow-pipelines]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 将秘密和凭证从 Kubeflow 管道中的代码中移出
我正在使用 Kubeflow 管道来运行一些 ML 工作流。现在我有一个 python 代码,它在容器中设置环境变量并使用它。目前,我已将其作为字符串直接存储在 @func_to_container_op 注释函数下的代码中。我想要做的是将它移出代码。这是我目前正在使用的代码片段。
用例是凭据可以更改,并且不应仅更改凭据而更改代码。
python - 如何从自定义 Python 函数 TFX 组件传播 mlpipeline-metrics?
注意:这是我报告的 GitHub 问题的副本。
重新发布它希望得到更多关注,我将更新任何一个站点上的任何解决方案。
问题
我想mlpipeline-metrics
从我的自定义 Python 函数 TFX 组件中导出,以便它显示在 KubeFlow UI中。
这是我正在尝试做的一个最小示例:
在 KubeFlow UI 中,“运行输出”选项卡显示“未找到此运行的指标”。但是,输出伪影显示在 ML 元数据中(见屏幕截图)。任何有关如何实现这一点的帮助将不胜感激。谢谢!
tensorflow - 将 Jupyter 笔记本部署为 AI Platform 管道中的组件
我有一个 Jupyter Notebook,其中包含模型创建、AI 平台上的模型部署和创建版本。我能够得到我的模型的预测。现在我正在尝试构建一个自动化整个过程的 CI/CD 管道。有没有一种方法可以将我的整个 Jupyter 笔记本作为 AI Platform Pipelines 中的一个组件传递?
kubernetes - 实例化和关闭 Kubeflow pod
我正在学习 Kubernetes 和 Kubeflow,有一些我想做的事情,我在互联网上找不到任何明确的答案,如果它可能或我应该采取的路线。
在训练我的机器学习模型时,我想使用大型机器在云上训练我的模型,但之后我只想在小型实例上提供模型。我希望大型机器仅在训练步骤中使用并在此之后关闭。用 Kubeflow 可以做到这一点吗?如果是这样,我将如何去做?
对不起新手问题,我还在学习这个平台。
python - 如何更改张量流变换中张量的维度并将其提供给训练器?
我正在做一个数据流量项目,我的工作是在 Google Cloud Platform 中使用 tensorflow 和 kubeflow 构建管道。我一直在尝试更改转换组件中 examplegen 输出的维度,并将训练器中的转换输出用作模型的输入。我需要将数据用作模型中的张量,但转换输出被保存为类。这是我的“预处理”和“功能”代码,它们是转换组件的一部分。
和
pytorch - PyTorch 和 PyTorch-operator kubeflow 管道
我正在尝试将 pytorch 和 pytorch-operators 集成到 kubeflow 管道中,但我无法为两者获得良好的资源。在当前的实现中这可能吗?
我知道 TFJob 和 PyTorchJob 都在 kubernetes 集群上运行训练容器,但我正在尝试将它们集成到管道中。
tfx - 如何为 TFX+GPU 支持构建 Docker 映像?
我正在尝试通过 TFX+Kubeflow(管道服务)在 Cloud AI Platform 的训练作业上训练 ML 模型。
每当触发 Trainer 作业时,我都会看到抱怨 CUDA 的日志消息。
2021-02-14 23:39:45.470214:W tensorflow/stream_executor/platform/default/dso_loader.cc:60] 无法加载动态库“libcudart.so.11.0”;dlerror:libcudart.so.11.0:无法打开共享对象文件:没有这样的文件或目录;LD_LIBRARY_PATH:/usr/local/lib
而且我没有看到任何 GPU(加速器)很忙。
scaleTier
我认为当我设置为 like时 CUDA 可用BASIC_GPU
。但是,我也需要TFX
's EntryPoint
。我还没有看到任何官方Dockerfile
构建 TFX+CUDA 图像。
有什么建议吗?反复试验......我不断失去 GCP 积分......
tensorflow - 如何连接 Tensorflow 数据集列?
我有一个 Keras 模型,它采用形状为 (n, 288, 1) 的输入层,其中 288 是特征数。我正在使用 TensorFlow 数据集tf.data.experimental.make_batched_features_dataset
,我的输入层将是 (n, 1, 1),这意味着它一次为模型提供一个特征。如何制作形状为 (n, 288, 1) 的输入张量?我的意思是如何在一个张量中使用我的所有功能?这是我的模型代码:
这是错误:
grpc - 从 Cloud Build 连接到 GKE 集群上的 gRPC 服务
我们使用了一个托管的 Kubeflow Pipelines (KFP) 实例,它是使用 GCP 的 AI Platform Pipelines 创建的,以及一个托管的 MySQL 实例,它是使用 Cloud SQL 创建的。我们还使用 Cloud Build 来构建和运行我们的 KFP 管道。我们想添加一个 Cloud Build 步骤,在 KFP 管道运行完成后,运行一个脚本,该脚本使用 MLMD API 来查询该管道运行的元数据。我们有一个 MLMD 脚本,可以在 GCP VM 上手动运行时成功查询元数据。问题是让该脚本在 Cloud Build 中运行。
第一种方法是mlmd.metadata_store.MetadataStore
使用 MySQL 连接信息创建对象,例如,
这在 VM 上运行良好。但是,似乎需要 Cloud SQL 代理才能在 Cloud Build 中运行。以这个Cloud Functions 代码实验室为例,我能够在 Cloud Build 中运行一个脚本,该脚本使用 sqlalchemy 通过代理连接到 MySQL。但是,将 sqlalchemy 与代理连接的方法似乎与上述 MLMD API 不兼容。它看起来像这样:
第二种方法使用与 KFP 一起部署的 MLMD gRPC 服务。首先,我端口转发服务:
然后mlmd.metadata_store.MetadataStore
使用 MLMD gRPC API 创建:
同样,这在 VM 上运行良好。但是,我不确定如何从 Cloud Build 连接到 gRPC 服务。我在 gRPC 和 Kubernetes 方面的经验是有限的,所以如果有一个简单的解决方案,我不会感到惊讶。
任何建议将不胜感激!
tensorflow-serving - KFServing pod“错误:容器存储初始化程序无效”
我是 KFServing 和 Kubeflow 的新手。
我正在关注https://github.com/kubeflow/kfserving/tree/master/docs/samples/v1alpha2/tensorflow来部署一个简单的推理服务。
但是,在查看日志时,我找不到容器存储初始化程序。我的预测服务 pod 拥有的唯一容器是 kfserving 和 queue-proxy。
我目前在 IBM Cloud 上使用 Kubeflow 1.2 和 Kubernetes 1.17。