azure-aks - 并发 AzureML REST 请求失败，服务请求过多（过载）

Question

我已将我的模型部署到具有 6 个节点的生产 Azure Kubernetes 服务。

顺序推理请求从 score.py 获得预期响应。

当我多个并发异步推理请求除第一个返回 503 之外的所有请求时Too many requests for service {my service name} (overloaded)。

我发送的请求最大为 4mb。当我发送微不足道的小请求时，它似乎有效。

score 0 · Accepted Answer

如果您尝试同时接收许多请求，我建议您也考虑使用 Triton 提供高性能服务：https ://docs.microsoft.com/en-us/azure/machine-learning/how-to-deploy -with-triton?tabs=python

1 回答 1