0

以下片段来自OpenCV find_obj.cpp,它是使用SURF的演示,


double
compareSURFDescriptors( const float* d1, const float* d2, double best, int length )
{
    double total_cost = 0;
    assert( length % 4 == 0 );
    int i;
    for( i = 0; i  best )
            break;
    }
    return total_cost;
}


据我所知,它检查欧几里得距离,我不明白为什么它以 4 人一组的方式进行?为什么不一次计算整个事情呢?

4

2 回答 2

3

通常这样做是为了使 SSE 优化成为可能。SSE 寄存器长 128 位,可以包含 4 个浮点数,因此您可以使用一条指令并行执行 4 次减法。

另一个好处:您必须在每四个差异之后检查循环计数器。即使编译器不利用这个机会生成 SSE 代码,这也会使代码更快。例如,VS2008 没有,甚至没有 -O2:

    
      双 t0 = d1[i] - d2[i];
00D91666 fld dword ptr [edx-0Ch]
00D91669 fsub dword ptr [ecx-4]
        双 t1 = d1[i+1] - d2[i+1];
00D9166C fld dword ptr [ebx+ecx]
00D9166F fsub 双字指针 [ecx]
        双 t2 = d1[i+2] - d2[i+2];
00D91671 fld dword ptr [edx-4]
00D91674 fsub 双字指针 [ecx+4]
        双 t3 = d1[i+3] - d2[i+3];
00D91677 fld dword ptr [edx]
00D91679 fsub 双字指针 [ecx+8]
        总成本 += t0*t0 + t1*t1 + t2*t2 + t3*t3;
00D9167C 佛罗里达州 (2)
00D9167E fmulp st(3),st
00D91680 佛罗里达州 (3)
00D91682 fmulp st(4),st
00D91684 fxch st(2)
00D91686 faddp st(3),st
00D91688 fmul st(0),st
00D9168A faddp st(2),st
00D9168C fmul st(0),st
00D9168E faddp st(1),st
00D91690 faddp st(2),st
于 2011-02-14T12:50:56.940 回答
1

我认为这是因为对于每个子区域,我们得到 4 个数字。总共 4x4x4 子区域制作 64 长度向量。所以它基本上得到了2个子区域之间的差异。

于 2011-02-08T20:27:25.303 回答