google-cloud-platform - 如何解决 GCP AI 预测平台出现 5xx 错误？

问问题 2020-09-09T06:30:21.377

226 次

我们已经能够将模型（自定义预测和 Tensorflow SavedModel 格式）部署到 AI 预测平台，基本测试表明，这些模型至少可以用于在线预测。我们现在正在尝试在将其投入生产之前进行一些负载测试，并处理一些稳定性问题。

我们看到各种错误 - 429 - “流量速率超过服务容量。减少流量或减小模型的大小” 503 - “上游连接错误或在标头之前断开/重置。重置原因：连接失败” 504 - “等待通知超时。”

我们已经实施了一种指数退避方法，随着时间的推移，它通常可以解决上述问题。但是，我们希望确保我们了解正在发生的事情。

429 看起来很简单 - 等待扩展。

503 / 504 错误，我们不确定原因是什么，以及如何解决/消除。我们玩过批量大小（根据在 Google AI Platform 上提供的 TensorFlow 模型，对实例批量进行在线预测太慢- 似乎它没有对更大的批量进行任何内部优化）、机器大小等。不确定它是否是资源问题，尽管我们在小批量（实例计数）中看到了这些错误。

还有其他人遇到这些问题吗？有什么最佳实践可以推荐吗？谢谢！

google-cloud-platform - 如何解决 GCP AI 预测平台出现 5xx 错误？

0 回答 0

Related

Reference