2

我已将我的模型部署到具有 6 个节点的生产 Azure Kubernetes 服务。

顺序推理请求从 score.py 获得预期响应。

当我多个并发异步推理请求除第一个返回 503 之外的所有请求时Too many requests for service {my service name} (overloaded)

我基于示例@ https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/deployment/production-deploy-to-aks/production-deploy构建了我的服务并部署了我的模型-to-aks.ipynb

我发送的请求最大为 4mb。当我发送微不足道的小请求时,它似乎有效。

4

1 回答 1

0

在此处查看指南:https ://docs.microsoft.com/en-us/azure/machine-learning/how-to-troubleshoot-deployment#http-status-code-503

如果您尝试同时接收许多请求,我建议您也考虑使用 Triton 提供高性能服务:https ://docs.microsoft.com/en-us/azure/machine-learning/how-to-deploy -with-triton?tabs=python

于 2020-11-02T23:38:37.563 回答