拥有一个训练有素的 '.h5' Keras 模型文件,我正在尝试优化推理时间:
探索了2个选项:
- 通过 TensorRT 加速推理
- 'int8' 量化。
此时我可以将模型文件转换为 TensorFlow protobuf '.pb' 格式,但作为旁注,它还包含几层的自定义对象。
看了几篇关于 TensorRT 转换和 TFLite 转换的文章,但我似乎没有找到一个清晰易读的健壮实现。有人可以解释这是如何完成的(TFLite/Keras 量化或 TensorRT)以使用相同的模型进行更快的推理。
(开放其他建议以提高 TensorFlow 和 Keras 支持的推理速度)