16

我最近将 cv2 用于 Tensorflow 的tf.image模块进行图像处理。然而,我的验证准确率下降了大约 10%。

我相信这个问题与

  1. cv2.imread() 与 tf.image.decode_jpeg()
  2. cv2.resize() 与 tf.image.resize_images()

虽然这些差异会导致更差的准确性,但在使用 plt.imshow() 时,这些图像似乎与人类无法区分。例如,以 ImageNet Validation Dataset 的 Image #1 为例:

CV2 图像 在此处输入图像描述

首要问题:

  • cv2.imread() 接受一个字符串并输出一个 BGR 3 通道 uint8 矩阵
  • tf.image_decode_jpeg() 接收一个字符串张量并输出一个 RGB 3 通道 uint8 张量。

但是,将 tf 张量转换为 BGR 格式后,图像中的许多像素处存在非常细微的差异。

使用 tf.image.decode_jpeg 然后转换为 BGR

[[ 26  41  24 ...,  57  48  46]
 [ 36  39  36 ...,  24  24  29]
 [ 41  26  34 ...,  11  17  27]
 ..., 
 [ 71  67  61 ..., 106 105 100]
 [ 66  63  59 ..., 106 105 101]
 [ 64  66  58 ..., 106 105 101]]```

使用 cv.imread

[[ 26  42  24 ...,  57  48  48]
 [ 38  40  38 ...,  26  27  31]
 [ 41  28  36 ...,  14  20  31]
 ..., 
 [ 72  67  60 ..., 108 105 102]
 [ 65  63  58 ..., 107 107 103]
 [ 65  67  60 ..., 108 106 102]]```

第二题:

  • tf.image.resize_images() 自动将 uint8 张量转换为 float32 张量,似乎加剧了像素值的差异。
  • 我相信 tf.image.resize_images() 和 cv2.resize() 都是

tf.image.resize_images

[[  26.           25.41850281   35.73127747 ...,   81.85855103
    59.45834351   49.82373047]
 [  38.33480072   32.90485001   50.90826797 ...,   86.28446198
    74.88543701   20.16353798]
 [  51.27312469   26.86172867   39.52401352 ...,   66.86851501
    81.12111664   33.37636185]
 ..., 
 [  70.59472656   75.78851318 
 45.48100662 ...,   70.18637085
    88.56777191   97.19295502]
 [  70.66964722   59.77249908   48.16699219 ...,   74.25527954
    97.58244324  105.20263672]
 [  64.93395996   59.72298431   55.17600632 ...,   77.28720856
    98.95108032  105.20263672]]```

cv2.resize

[[ 36  30  34 ..., 102  59  43]
 [ 35  28  51 ...,  85  61  26]
 [ 28  39  50 ...,  59  62  52]
 ..., 
 [ 75  67  34 ...,  74  98 101]
 [ 67  59  43 ...,  86 102 104]
 [ 66  65  48 ...,  86 103 105]]```

这是一个演示刚才提到的行为的要点。它包括我如何处理图像的完整代码。

所以我的主要问题是:

  • 为什么 cv2.imread() 和 tf.image.decode_jpeg() 的输出不同?
  • 如果 cv2.resize() 和 tf.image.resize_images() 使用相同的插值方案,它们有何不同?

谢谢!

4

1 回答 1

9

正如vijay m正确指出的那样,通过将其更改dct_method为“INTEGER_ACCURATE”,您将使用 cv2 或 tf 获得相同的 uint8 图像。问题确实似乎是调整大小的方法。我还尝试强制 Tensorflow 使用与 cv2 默认使用的插值方法(双线性)相同,但结果仍然不同。这可能是这种情况,因为 cv2 对整数值进行插值,而 TensorFlow 在插值之前转换为浮点数。但这只是一个猜测。如果您绘制 TF 和 cv2 调整大小图像之间的像素差异,您将获得以下直方图:

逐像素差异的直方图

如您所见,这看起来非常正态分布。(我也很惊讶像素级的差异)。您的准确性下降的问题可能就在这里。在本文中,Goodfellow 等人。描述对抗性示例和分类系统的影响。我认为这里的问题与此类似。如果您用于网络的原始权重是使用一些输入管道进行训练的,该管道给出了 cv2 函数的结果,那么来自 TF 输入管道的图像就像一个对抗性示例。

(例如,请参见顶部第 3 页的图片……我不能发布超过两个链接。)

所以最后我认为,如果你想对他们训练网络的相同数据使用原始网络权重,你应该使用相似/相同的输入管道。如果您使用权重在您自己的数据上微调网络,这应该不是什么大问题,因为您重新训练分类层以使用新的输入图像(来自 TF 管道)。

@Ishant Mrinal:请看一下 OP 在 GIST 中提供的代码。他意识到 BGR (cv2) 和 RGB (TF) 的区别,并将图像转换为相同的色彩空间。

于 2017-08-05T10:27:45.453 回答