我们已经能够将模型(自定义预测和 Tensorflow SavedModel 格式)部署到 AI 预测平台,基本测试表明,这些模型至少可以用于在线预测。我们现在正在尝试在将其投入生产之前进行一些负载测试,并处理一些稳定性问题。
我们看到各种错误 - 429 - “流量速率超过服务容量。减少流量或减小模型的大小” 503 - “上游连接错误或在标头之前断开/重置。重置原因:连接失败” 504 - “等待通知超时。”
我们已经实施了一种指数退避方法,随着时间的推移,它通常可以解决上述问题。但是,我们希望确保我们了解正在发生的事情。
429 看起来很简单 - 等待扩展。
503 / 504 错误,我们不确定原因是什么,以及如何解决/消除。我们玩过批量大小(根据在 Google AI Platform 上提供的 TensorFlow 模型,对实例批量进行在线预测太慢- 似乎它没有对更大的批量进行任何内部优化)、机器大小等。不确定它是否是资源问题,尽管我们在小批量(实例计数)中看到了这些错误。
还有其他人遇到这些问题吗?有什么最佳实践可以推荐吗?谢谢!