我在 Google 机器学习引擎上部署了一个用于分类的线性模型,并希望使用在线预测来预测新数据。
当我使用 Google API 客户端库调用 API 时,大约需要 0.5 秒才能获得只有一个实例的请求的响应。我预计延迟应该小于 10 微秒(因为模型非常简单),而 0.5 秒太长了。我还尝试使用 predict_proba 方法对新数据进行离线预测。超过 100,000 个实例用了 8.2 秒,这比使用 Google ML 引擎要快得多。有没有办法可以减少在线预测的延迟?发送请求的模型和服务器托管在同一区域中。
我想实时进行预测(API 收到请求后立即返回响应)。Google ML Engine 是否适合此目的?