我已将我的模型部署到具有 6 个节点的生产 Azure Kubernetes 服务。
顺序推理请求从 score.py 获得预期响应。
当我多个并发异步推理请求除第一个返回 503 之外的所有请求时Too many requests for service {my service name} (overloaded)
。
我发送的请求最大为 4mb。当我发送微不足道的小请求时,它似乎有效。
我已将我的模型部署到具有 6 个节点的生产 Azure Kubernetes 服务。
顺序推理请求从 score.py 获得预期响应。
当我多个并发异步推理请求除第一个返回 503 之外的所有请求时Too many requests for service {my service name} (overloaded)
。
我发送的请求最大为 4mb。当我发送微不足道的小请求时,它似乎有效。
如果您尝试同时接收许多请求,我建议您也考虑使用 Triton 提供高性能服务:https ://docs.microsoft.com/en-us/azure/machine-learning/how-to-deploy -with-triton?tabs=python