我有一段 MATLAB 代码,它从图像中获取 91x91 的像素块,然后用苹果 HOG 提取其特征向量。我想用 Python 重写这个函数。我一直在努力寻找如何在 Python 中获得与在 MATLAB 中相同的 HOG 返回值,但未能做到。如果您能提供任何帮助,我将不胜感激。
VLFeat 库(http://www.vlfeat.org/overview/hog.html)用于 MATLAB 代码,我在 Python 中使用 scikit-image(http://scikit-image.org/docs/dev/ api/skimage.feature.html?highlight=peak_local_max#skimage.feature.hog)。
在 Matlab 中,输入 'im2single(patch)' 是一个 91*91 的数组,而 Hog 的返回数据类型是 4*4*16 single。HoG 使用的单元格大小为 23,方向数为 4。
hog = vl_hog(im2single(patch),23, 'variant', 'dalaltriggs', 'numOrientations',4) ;
返回数据为4*4*16单条,可以显示为:
val(:,:,1) =
0 0 0 0
0 0 0 0
0 0.2000 0.2000 0.0083
0 0.2000 0.2000 0.0317
....
val(:,:,16) =
0 0 0 0
0 0 0 0
0 0 0.0526 0.0142
0 0 0.2000 0.2000
然后手动将结果展平为 256*1 的特征向量。综上所述,在一个 91*91 的像素块中,提取了一个 256*1 的特征向量。现在我想在 Python 中得到相同的结果。
在我的 Python 代码中,我尝试应用具有相同单元大小和方向数的 HOG。块大小设置为 (1,1)
tc = hog(repatch, orientations=4, pixels_per_cell=(23,23), cells_per_block= (1,1), visualise=False, normalise=False)
我将补丁的大小附加到 92*92,因此补丁大小是单元格大小的整数倍。输入数组现在称为“repatch”。但是,输出 'tc' 是一个 64*1 数组(梯度直方图被展平为特征向量)
tc.shape
(64,)
然后我查看了 Skimage 源代码,
orientation_histogram = np.zeros((n_cellsy, n_cellsx, orientations))
orientation_histogram.shape
(4, 4, 4)
这里的 n_cellsx 是:x 中的细胞数,n_cellsy 是:y 中的细胞数。似乎 Hog 的输出与orientation_histogram 的维度高度相关。
HoG 返回值的实际维度取决于:
normalised_blocks = np.zeros((n_blocksy, n_blocksx,by, bx, orientations))
其中 n_blocksy、n_blocksy 的计算公式为:
n_blocksx = (n_cellsx - bx) + 1
n_blocksy = (n_cellsy - by) + 1
n_cellsx为:x中的单元格数,这里取值为4,n_cellsy也是;bx,by为cells_per_block,即(1,1);在这种情况下,方向是 4。
返回值(normalised_blocks)的大小似乎是由 4*4*1*1*4 (n_blocksy * n_blocksx * by * bx *orientations) 计算的
我试图改变块大小,但仍然无法得到我所期望的......(当块大小为(2,2)时,返回值是一个 144*1 数组)
谁能帮忙...我怎样才能获得与 Matlab 中相同的 Hog 输出?非常感谢。