我不清楚模型预测的 Vertex AI 定价。在文档中,在更多关于预测节点的自动缩放的标题下,提到的一点是:
“如果您选择自动扩展,节点数量会自动扩展,并且可以在无流量持续时间下缩减到零”
稍后在文档中提供的示例似乎也表明,在没有流量的时期,零节点正在使用中。但是,当我在 Vertex AI 中创建端点时,在Autoscaling标题下会显示:
“自动缩放:如果您设置最小值和最大值,计算节点将缩放以满足这些边界内的流量需求”
“最小计算节点数”下的值 0是不允许的,因此您必须输入 1 或更大,并且提到:
默认值为 1。如果设置为 1 或更多,则即使没有流量需求,计算资源也会持续运行。这会增加成本,但可以避免由于节点初始化而丢失的请求。
我的问题是,当我通过将最小值设置为 1 并将最大值设置为 10 来选择自动缩放时会发生什么。1 个节点是否总是连续运行?或者它是否像文档建议的那样在没有流量的情况下缩小到 0 个节点。
为了测试,我部署了一个具有自动缩放功能的端点(最小值和最大值设置为 1),然后当我发送预测请求时,响应几乎是立即的,表明节点已经启动。大约一个小时后,我再次这样做,并且响应立即表明该节点可能永远不会关闭。此外,对于高延迟要求,是否将自动缩放到 0 个节点,如果这确实可能,甚至是实际的,即,我们可以期望从 0 个节点启动的延迟是多少?