我正在探索以最具成本效益的方式为我训练有素的 ML 模型提供服务的方法。
我目前有 4 个不同的模型,其中第一个模型的输出构成第二个模型的输入的一部分,依此类推。
当前的用户群非常小,所需的推理数量很少且零星。IE。每隔几个小时 2 到 3 次,甚至有些日子 0 推理。
首先,我使用 ACI 进行部署,但由于某种原因,即使没有人访问端点,容器实例仍保持运行。我的印象是实例应该自行停止以避免对未使用的时间计费。
这与部署为实时端点的模型有关吗?当端点/模型未使用时,Kubernetes 部署是否会更合适(比如它会缩小到 0 个节点)吗?