0

我在 Google 机器学习引擎上部署了一个用于分类的线性模型,并希望使用在线预测来预测新数据。

当我使用 Google API 客户端库调用 API 时,大约需要 0.5 秒才能获得只有一个实例的请求的响应。我预计延迟应该小于 10 微秒(因为模型非常简单),而 0.5 秒太长了。我还尝试使用 predict_proba 方法对新数据进行离线预测。超过 100,000 个实例用了 8.2 秒,这比使用 Google ML 引擎要快得多。有没有办法可以减少在线预测的延迟?发送请求的模型和服务器托管在同一区域中。

我想实时进行预测(API 收到请求后立即返回响应)。Google ML Engine 是否适合此目的?

4

1 回答 1

0

更多信息会有所帮助:

  1. 你能测量从你正在访问服务的机器到 gcp 的网络延迟吗?如果您从部署模型的同一区域中的 Compute Engine 实例调用,则延迟将最低。

  2. 可以发一下你的电话号码吗?

  3. 这是第一个请求还是每个请求的延迟?

要回答您的最后一个问题,是的,cloud ml 引擎旨在支持每秒的高查询。

于 2017-06-20T14:19:41.870 回答