-1

使用 ML Studio 和 azure Kubernetes 服务部署 170 ml 模型,该服务在以下文档链接“https://github.com/MicrosoftDocs/azure-docs/blob/master/articles/machine-learning/how-to”中引用-deploy-azure-kubernetes-service.md”。

我们正在使用带有自定义环境的 python 脚本来训练模型,并且我们正在 Azure ML 服务上注册 ml 模型。注册模式后,我们将使用容器映像将其部署在 AKS 上。

在部署 ML 模型时,我们能够为 AKS 中的每个节点的每个 pod 部署多达 10 到 11 个模型。当我们尝试在同一节点上部署模型时,我们收到部署超时错误,并且我们收到以下错误消息。

在此处输入图像描述

用于使用具有以下部署配置的 Python 语言在 Azure Kubernetes 服务中部署模型(auth_enabled = Flase、autoscale_enabled = Flase、cpu_cores = 0.6、memory_gb = 1、cpu_cores_limit = 2、memory_gb_limit = 2)。

我们还检查了 azure 文档,我们可以找到 aks 节点的任何配置或部署设置。

您能否就“每次部署(每个容器)要部署的模型数量限制为 1,000 个模型”向我们提供更多说明,您能否就如何增加每个节点中部署的 ml 模型的数量提供见解/反馈? Azure Kubernetes 服务。谢谢!

4

1 回答 1

0

在每个 POD 中创建一个容器的最佳实践。因为如果一个容器出现故障或发生故障,那么它将全部关闭该 POD。因为容器在 Pod 中使用共享存储或文件,并且它在 pod 级别分配了一个公共 IP,并且每个容器仅部署一个模型。

podsPerCore 参数根据节点上的处理器核心数限制节点可以运行的 pod 数。例如,如果在具有 4 个处理器核心的节点上将 podsPerCore 设置为 10,则该节点上允许的最大 pod 数为 40。

问题:您能否就如何增加部署在每个节点 Azure Kubernetes 服务中的 ml 模型的数量提供见解/反馈?

答:增加每个节点中的 ML 模型部署的数量以在节点中创建最大数量的 PODS,而不是增加 POD 中的容器。

默认情况下,每个节点最多可以有 110 个 Pod,并且集群中的每个节点都为其 Pod 分配了 /24 范围。这导致每个节点有 256 个 Pod IP。通过拥有大约两倍于可能的 Pod 的可用 IP 地址。

参考:https ://cloud.google.com/kubernetes-engine/docs/best-practices/scalability

请遵循上述建议,因为在您部署 ML 模型的情况下,可能会达到特定 POD 的资源使用情况。创建另一个 POD 并将其部署在那里。

于 2021-09-06T13:04:42.027 回答