2

我有一段 MATLAB 代码,它从图像中获取 91x91 的像素块,然后用苹果 HOG 提取其特征向量。我想用 Python 重写这个函数。我一直在努力寻找如何在 Python 中获得与在 MATLAB 中相同的 HOG 返回值,但未能做到。如果您能提供任何帮助,我将不胜感激。

VLFeat 库(http://www.vlfeat.org/overview/hog.html)用于 MATLAB 代码,我在 Python 中使用 scikit-image(http://scikit-image.org/docs/dev/ api/skimage.feature.html?highlight=peak_local_max#skimage.feature.hog)。

在 Matlab 中,输入 'im2single(patch)' 是一个 91*91 的数组,而 Hog 的返回数据类型是 4*4*16 single。HoG 使用的单元格大小为 23,方向数为 4。

     hog = vl_hog(im2single(patch),23, 'variant', 'dalaltriggs', 'numOrientations',4) ;

返回数据为4*4*16单条,可以显示为:

     val(:,:,1) =

     0         0         0         0
     0         0         0         0
     0    0.2000    0.2000    0.0083
     0    0.2000    0.2000    0.0317

     ....

     val(:,:,16) =

     0         0         0         0
     0         0         0         0
     0         0    0.0526    0.0142
     0         0    0.2000    0.2000

然后手动将结果展平为 256*1 的特征向量。综上所述,在一个 91*91 的像素块中,提取了一个 256*1 的特征向量。现在我想在 Python 中得到相同的结果。

在我的 Python 代码中,我尝试应用具有相同单元大小和方向数的 HOG。块大小设置为 (1,1)

    tc = hog(repatch, orientations=4, pixels_per_cell=(23,23), cells_per_block= (1,1), visualise=False, normalise=False)

我将补丁的大小附加到 92*92,因此补丁大小是单元格大小的整数倍。输入数组现在称为“repatch”。但是,输出 'tc' 是一个 64*1 数组(梯度直方图被展平为特征向量)

   tc.shape 

   (64,)

然后我查看了 Skimage 源代码,

    orientation_histogram = np.zeros((n_cellsy, n_cellsx, orientations))
    orientation_histogram.shape 
    (4, 4, 4)

这里的 n_cellsx 是:x 中的细胞数,n_cellsy 是:y 中的细胞数。似乎 Hog 的输出与orientation_histogram 的维度高度相关。

HoG 返回值的实际维度取决于:

    normalised_blocks = np.zeros((n_blocksy, n_blocksx,by, bx, orientations))

其中 n_blocksy、n_blocksy 的计算公式为:

    n_blocksx = (n_cellsx - bx) + 1
    n_blocksy = (n_cellsy - by) + 1

n_cellsx为:x中的单元格数,这里取值为4,n_cellsy也是;bx,by为cells_per_block,即(1,1);在这种情况下,方向是 4。

返回值(normalised_blocks)的大小似乎是由 4*4*1*1*4 (n_blocksy * n_blocksx * by * bx *orientations) 计算的

我试图改变块大小,但仍然无法得到我所期望的......(当块大小为(2,2)时,返回值是一个 144*1 数组)

谁能帮忙...我怎样才能获得与 Matlab 中相同的 Hog 输出?非常感谢。

4

1 回答 1

1

与 scikit-image 相比,VLFeat 库做了一些不同的事情。VLFeat 库返回 9 个(方向数)对比不敏感、18 个对比敏感和 4 个维度,它们以方形块(包含四个单元格)捕获整体梯度能量。所以它每个单元格输出 31 个维度。然而 scikit-image 程序是不同的,我认为你对它有很好的理解。

根据我的经验,如果您想使用 scikit-image 和 MATLAB 找到相同的 HoG 矢量,您肯定至少应该cells_per_block= (2,2)使用 scikit-image。

于 2016-07-21T22:19:32.000 回答