出于研究目的,我试图了解 TF Lite 如何进行推理。我只对软件逻辑感兴趣。
我正在使用 TensorFlow 2.1 和 TensorFlow 模型优化 0.3.0。
例如,我使用一个非常简单的全连接网络:
tf.keras.models.Sequential([
tf.keras.layers.Flatten(input_shape=(28, 28, 1)),
tf.keras.layers.Dense(10, activation=None)
])
我通过量化感知训练在 mnist 上训练网络。
然后用 TF Lite 对网络进行量化:
converter = tf.lite.TFLiteConverter.from_keras_model(model)
converter.optimizations = [tf.lite.Optimize.DEFAULT]
converter.representative_dataset = data_generator(ds_train)
quantized_tflite_model = converter.convert()
为了确保我知道自己在做什么,我做了 3 件事:我使用 TF 从 32 位模型中获取输出。我使用 TF Lite 从量化模型中获取输出。我在 Python 中实现了 32 位模型的前向传递,并将其输出与之前的 2 进行了比较。
现在我正在尝试了解如何实现量化模型的前向传递。
使用interpreter.get_tensor_details(),我得到以下输出:
{'name': 'Identity', 'index': 0, 'shape': array([ 1, 10]), 'dtype': <class 'numpy.float32'>, 'quantization': (0.0, 0)}
{'name': 'flatten_input_int8', 'index': 1, 'shape': array([ 1, 28, 28, 1]), 'dtype': <class 'numpy.int8'>, 'quantization': (0.003921568859368563, -128)}
{'name': 'sequential/quant_dense/BiasAdd', 'index': 2, 'shape': array([ 1, 10]), 'dtype': <class 'numpy.int8'>, 'quantization': (0.22868551313877106, 49)}
{'name': 'sequential/quant_dense/LastValueQuant/FakeQuantWithMinMaxVars/transpose', 'index': 3, 'shape': array([ 10, 784]), 'dtype': <class 'numpy.int8'>, 'quantization': (0.01087072491645813, 0)}
{'name': 'sequential/quant_dense/MatMul_bias', 'index': 4, 'shape': array([10]), 'dtype': <class 'numpy.int32'>, 'quantization': (4.263029768480919e-05, 0)}
{'name': 'sequential/quant_dense/BiasAdd_float', 'index': 5, 'shape': array([ 1, 10]), 'dtype': <class 'numpy.float32'>, 'quantization': (0.0, 0)}
{'name': 'flatten_input', 'index': 6, 'shape': array([ 1, 28, 28, 1]), 'dtype': <class 'numpy.float32'>, 'quantization': (0.0, 0)}
我使用这篇论文作为参考:https ://arxiv.org/pdf/1712.05877.pdf 我还阅读了这个页面:https ://www.tensorflow.org/lite/performance/quantization_spec
我目前的实现是这样的:
def quantization_params(index):
return tensor_details[index]['quantization'][0], tensor_details[index]['quantization'][1]
image = get_single_test_image(show_image=False)
# #### Convert input image from float32 to int8 ####
q_scale, q_zero = quantization_params(index=1)
x = image / q_scale + q_zero
# #### Flatten input ####
x = x.flatten()
# #### Dense layer ####
kernel, bias = tflite_model.interpreter.get_tensor(3), tflite_model.interpreter.get_tensor(4)
s_input, z_input = quantization_params(index=1)
s_kernel, z_kernel = quantization_params(index=3)
s_output, z_output = quantization_params(index=4)
M = s_input * s_kernel
quantized_multiplier, right_shift = quantize_multiplier_smaller_than_one(M)
dense_output = np.zeros((kernel.shape[0],), dtype=np.int32)
for i in range(dense_output.shape[0]):
for j in range(kernel.shape[1]):
dense_output[i] += int((x[j] + z_input) * (kernel[i, j] + z_kernel))
x = dense_output + bias
x = np.right_shift(x * quantized_multiplier, right_shift)
函数 quantize_multiplier_smaller_than_one 是我对 C 函数的 Python 实现:https ://github.com/google/gemmlowp/blob/master/doc/quantization_example.cc
所以我的问题是,这是正确的方法吗?我肯定在这里遗漏了一些计算,它是什么?而且,当我有一个更大的网络时,我怎么知道如何系统地使用正确的索引来提取每一层的量化参数。
非常感谢您的任何建议。