tensorflow-serving - TensorFlow 服务与 XLA

翻译自：https://stackoverflow.com/questions/54671395 2019-02-13T13:28:56.137

973 次

3

使用 Tensorflow Serving 进行推理时是否可以启用 XLA 编译？

（我希望这只是未记录的配置问题，并且我可以避免实现自定义 Servable）。

1 回答 1

1

@njs，

实际上不建议在推理期间进行编译。推理时的编译会导致 HBM 内存不足，导致芯片无法服务请求。

推荐的解决方案是：

使用具有允许的批处理大小的批处理函数来限制运行时的编译次数。
在模型加载时而不是推理时对这些允许的批量大小进行所有编译。这样，您的模型就可以在加载后立即进行推理，而不是在推理时进行高延迟编译。

于 2019-04-17T04:18:56.063 回答