我最近一直在使用 Kubeflow。我的目标是让 PyTorch 在 Kubeflow 中运行。我已经阅读了有关在此处创建分布式 PyTorch 作业的文档。我还阅读了有关如何在 Kubeflow 中创建管道/组件的所有文档。
我的问题是我现在如何才能将 PyTorch 作业(它是 Kubernetes 资源)作为组件运行。最终目标是让我的 PyTorch 代码,它是一些模型的分布式训练,在 Kubeflow 的组件/管道框架中运行。多工人作业如何融入 Kubeflow 的组件/管道框架?
该文档提供了大量关于如何从 python 代码、Docker 容器等运行组件的信息……但没有关于如何从 PyTorchJob 或 Kubernetes 作业中执行此操作的信息。这对我来说似乎是一个明显的用例,我觉得我遗漏了一些明显的东西,但我已经浏览了我能找到的所有 Kubeflow 文档,并针对如何做到这一点进行了额外的搜索。
将不胜感激任何帮助,谢谢!