0

动态范围量化的张量流文档指出:

在推理时,权重从 8 位精度转换为浮点,并使用浮点内核进行计算。此转换只进行一次并缓存以减少延迟。

同样在动态范围量化中,激活值始终存储在浮点数 32 中,但是,它们在处理时转换为 8 位整数,并在处理完成后返回浮点数。

我很困惑,如果在推理时将权重转换为 float32,那么量化是如何完成的?

4

1 回答 1

0

引用自https://www.tensorflow.org/lite/performance/post_training_quant

此外,TFLite 支持激活的动态量化和去量化,以允许:

在可用时使用量化内核以加快实现速度。图的不同部分的浮点内核与量化内核的混合。

如果内核具有支持量化的优化路径,则浮点激活被量化以应用量化权重。

否则,激活将保持在浮点数中,并且权重将转换为浮点数以进行推理。

于 2021-07-26T12:36:59.687 回答