google-cloud-platform - 顶点 AI 预测 - 自动缩放无法将最小节点设置为 0

Question

我不清楚模型预测的 Vertex AI 定价。在文档中，在更多关于预测节点的自动缩放的标题下，提到的一点是：

“如果您选择自动扩展，节点数量会自动扩展，并且可以在无流量持续时间下缩减到零”

稍后在文档中提供的示例似乎也表明，在没有流量的时期，零节点正在使用中。但是，当我在 Vertex AI 中创建端点时，在Autoscaling标题下会显示：

“自动缩放：如果您设置最小值和最大值，计算节点将缩放以满足这些边界内的流量需求”

“最小计算节点数”下的值 0是不允许的，因此您必须输入 1 或更大，并且提到：

默认值为 1。如果设置为 1 或更多，则即使没有流量需求，计算资源也会持续运行。这会增加成本，但可以避免由于节点初始化而丢失的请求。

我的问题是，当我通过将最小值设置为 1 并将最大值设置为 10 来选择自动缩放时会发生什么。1 个节点是否总是连续运行？或者它是否像文档建议的那样在没有流量的情况下缩小到 0 个节点。

为了测试，我部署了一个具有自动缩放功能的端点（最小值和最大值设置为 1），然后当我发送预测请求时，响应几乎是立即的，表明节点已经启动。大约一个小时后，我再次这样做，并且响应立即表明该节点可能永远不会关闭。此外，对于高延迟要求，是否将自动缩放到 0 个节点，如果这确实可能，甚至是实际的，即，我们可以期望从 0 个节点启动的延迟是多少？

score 1 · Accepted Answer

您使用的是 N1 还是非 N1 机器类型？如果要自动缩放为零，则必须使用非 N1 机器。请参阅节点分配的第二个注释：

注意：使用 Compute Engine (N1) 机器类型的版本无法缩减到零节点。它们至少可以缩减到 1 个节点。

更新：AI Platform 支持缩放到零，而 Vertex AI 目前不支持。从扩展文档中，节点可以扩展，但没有提到它可以缩小到零。这是针对想要跟踪此问题的人的公共功能请求。

关于延迟要求，实际输出会有所不同。但是，根据文档需要注意的一件事是，该服务可能无法以足够快的速度使节点联机以跟上请求流量的大峰值。如果您的流量经常出现陡峭的峰值，并且如果可靠的低延迟对您的应用程序很重要，您可能需要考虑手动扩展。

附加参考：https ://cloud.google.com/ai-platform/prediction/docs/machine-types-online-prediction#automatic_scaling

score 0 · Accepted Answer

目前不可能将 N1 机器扩展到零 - 我们计划在 2022 年（希望如此）添加这种支持。传统 AI 平台上的 mls- 机器可以扩展到 0，但是它不支持 GPU，并且模型大小的限制更小（2G？）

google-cloud-platform - 顶点 AI 预测 - 自动缩放无法将最小节点设置为 0

2 回答 2

Related

Reference