2

考虑以下两段代码,第一段是 C 版本:

void __attribute__((no_inline)) proj(uint8_t * line, uint16_t length)
{
    uint16_t i;
    int16_t tmp;
    for(i=HPHD_MARGIN; i<length-HPHD_MARGIN; i++) {
        tmp = line[i-3] - 4*line[i-2] + 5*line[i-1] - 5*line[i+1] + 4*line[i+2] - line[i+3];
        hphd_temp[i]=ABS(tmp);
    }
}

第二个是使用霓虹内在函数的相同功能(边框除外)

void  __attribute__((no_inline)) proj_neon(uint8_t * line, uint16_t length)
{
    int i;
    uint8x8_t b0b7, b8b15, p1p8,p2p9,p4p11,p5p12,p6p13, m4, m5;
    uint16x8_t result;

    m4 = vdup_n_u8(4);
    m5 = vdup_n_u8(5);
    b0b7 = vld1_u8(line);
    for(i = 0; i < length - 16; i+=8) {
        b8b15 = vld1_u8(line + i + 8);
        p1p8  = vext_u8(b0b7,b8b15, 1);
        p2p9  = vext_u8(b0b7,b8b15, 2);
        p4p11 = vext_u8(b0b7,b8b15, 4);
        p5p12 = vext_u8(b0b7,b8b15, 5);
        p6p13 = vext_u8(b0b7,b8b15, 6);

        result = vsubl_u8(b0b7, p6p13); //p[-3]
        result = vmlal_u8(result, p2p9, m5); // +5 * p[-1];
        result = vmlal_u8(result, p5p12, m4);// +4 * p[1];
        result = vmlsl_u8(result, p1p8, m4); //-4 * p[-2];
        result = vmlsl_u8(result, p4p11, m5);// -5 * p[1];
        vst1q_s16(hphd_temp + i + 3, vabsq_s16(vreinterpretq_s16_u16(result)));
        b0b7 = b8b15;
    }
    /* todo : remaining pixel */

}

我对性能提升感到失望:大约是 10 - 15%。如果我查看生成的程序集:

  • C 版本转换为 108 指令循环
  • Neon 版本转换为 72 条指令循环。

但是,neon 代码中的一个循环计算的数据量是通过 C 循环的一个迭代的 8 倍,因此应该会看到显着的改进。

您对两个版本之间的微小差异有任何解释吗?

附加细节:测试数据是 10 Mpix 图像,C 版本的计算时间约为 2 秒。

CPU : ARM 皮质 a8

4

1 回答 1

4

我将大胆猜测并说缓存(数据)是您看不到预期的巨大性能提升的原因。虽然我不知道您的芯片组是否支持缓存或处于什么级别,但数据是否跨越缓存行、对齐不佳或在 CPU 同时执行其他操作(中断、线程等)的环境中运行.),那么这也可能会使您的结果变得混乱。

于 2013-06-10T15:48:30.290 回答