是否有建议的方法在 Kubernetes 中为数百个机器学习模型提供服务?像Kfserving这样的解决方案似乎更适合只有一个训练模型或几个版本的模型,并且该模型服务于所有请求的情况。例如,在所有用户中通用的 typeahead 模型。
但是有没有建议的方法来服务成百上千个这样的模型呢?例如,针对每个用户的数据专门训练的 typeahead 模型。
实现这样的事情的最天真的方法是,每个预先输入的服务容器在内存中维护一个本地模型缓存。但是随后扩展到多个 pod 将是一个问题,因为每个缓存都是 pod 的本地缓存。因此,每个请求都需要路由到已加载模型的正确 pod。
还必须维护这样一个注册表,我们知道哪个 pod 加载了哪个模型并在模型驱逐时执行更新似乎是很多工作。