2

我正在学习 Kubernetes 和 Kubeflow,有一些我想做的事情,我在互联网上找不到任何明确的答案,如果它可能或我应该采取的路线。

在训练我的机器学习模型时,我想使用大型机器在云上训练我的模型,但之后我只想在小型实例上提供模型。我希望大型机器仅在训练步骤中使用并在此之后关闭。用 Kubeflow 可以做到这一点吗?如果是这样,我将如何去做?

对不起新手问题,我还在学习这个平台。

4

1 回答 1

1

一种方法是拥有两个单独的集群。一个用于训练的大集群和另一个用于服务的较小集群。您可以在更大的集群上使用 Kubeflow Pipelines,训练模型,然后将模型文件放在分布式存储中。在较小的集群上,您可以单独运行KFServing并将模型二进制文件从分布式存储加载到您的推理服务中。

于 2021-02-04T22:52:48.953 回答