3

拥有一个训练有素的 '.h5' Keras 模型文件,我正在尝试优化推理时间:

探索了2个选项:

  1. 通过 TensorRT 加速推理
  2. 'int8' 量化。

此时我可以将模型文件转换为 TensorFlow protobuf '.pb' 格式,但作为旁注,它还包含几层的自定义对象。

看了几篇关于 TensorRT 转换和 TFLite 转换的文章,但我似乎没有找到一个清晰易读的健壮实现。有人可以解释这是如何完成的(TFLite/Keras 量化或 TensorRT)以使用相同的模型进行更快的推理。

(开放其他建议以提高 TensorFlow 和 Keras 支持的推理速度)

4

1 回答 1

0

这是关于如何在 TF 中使用 TensorRT 的用户指南:https ://docs.nvidia.com/deeplearning/frameworks/tf-trt-user-guide/index.html

本演讲解释了 TensorRT 在 TF 中的工作原理:https ://developer.nvidia.com/gtc/2019/video/S9431

请注意,TensorRT 还支持 INT8 量化(在训练期间或训练后)。

这篇博文也有类似的内容:https ://medium.com/tensorflow/high-performance-inference-with-tensorrt-integration-c4d78795fbfe

这个存储库有一堆例子展示了如何使用它:https ://github.com/tensorflow/tensorrt

于 2019-07-07T18:35:00.940 回答