c++ - 如何在使用 TensorRT C++ API 编写的 TensorRT 模型上运行半精度推理？

Question

我正在尝试使用原生用 TensorRT C++ API 编写的模型运行半精度推理（未从其他框架解析，例如 caffe、tensorflow）；据我所知，这个问题没有公开的工作示例；我找到的最接近的是 sampleMLP 示例代码，它与TensorRT 4.0.0.3 一起发布，但发行说明说不支持 fp16；

我的玩具示例代码可以在这个 repo中找到。它包含 API 实现的架构和推理例程，以及我用来将训练过的权重字典转换为 wtd TensorRT 格式的 python 脚本。

我的玩具架构只包含一个卷积；目标是在 fp32 和 fp16 之间获得相似的结果，除了一些合理的精度损失；该代码似乎适用于 fp32，而我在 fp16 推理的情况下获得的是完全不同数量级的值（~1e40）；所以看起来我在转换过程中做错了什么；

对于理解问题的任何帮助，我将不胜感激。

谢谢，

F

score 1 · Accepted Answer

快速阅读您的代码后，我可以看到您为获得半精度优化网络所做的工作超出了必要的范围。您不应该手动将加载的权重转换为您float32自己float16。相反，您应该像往常一样创建网络并调用nvinfer1::IBuilder::setFp16Mode(true)您的nvinfer1::IBuilder对象，让 TensorRT 在合适的地方为您进行转换。

c++ - 如何在使用 TensorRT C++ API 编写的 TensorRT 模型上运行半精度推理？

1 回答 1

Related

Reference