6

我有两个浮动标签。我需要将第一个选项卡中的元素乘以第二个选项卡中的相应元素,并将结果存储在第三个选项卡中。

我想使用 NEON 来并行化浮点乘法:同时进行四个浮点乘法而不是一个。

我预计会有显着的加速,但我只实现了大约 20% 的执行时间减少。这是我的代码:

#include <stdlib.h>
#include <iostream>
#include <arm_neon.h>

const int n = 100; // table size

/* fill a tab with random floats */
void rand_tab(float *t) {
    for (int i = 0; i < n; i++)
        t[i] = (float)rand()/(float)RAND_MAX;
}

/* Multiply elements of two tabs and store results in third tab
 - STANDARD processing. */
void mul_tab_standard(float *t1, float *t2, float *tr) {
    for (int i = 0; i < n; i++)
         tr[i] = t1[i] * t2[i]; 
}

/* Multiply elements of two tabs and store results in third tab 
- NEON processing. */
void mul_tab_neon(float *t1, float *t2, float *tr) {
    for (int i = 0; i < n; i+=4)
        vst1q_f32(tr+i, vmulq_f32(vld1q_f32(t1+i), vld1q_f32(t2+i)));
}

int main() {
    float t1[n], t2[n], tr[n];

    /* fill tables with random values */
    srand(1); rand_tab(t1); rand_tab(t2);


    // I repeat table multiplication function 1000000 times for measuring purposes:
    for (int k=0; k < 1000000; k++)
        mul_tab_standard(t1, t2, tr);  // switch to next line for comparison:
    //mul_tab_neon(t1, t2, tr);  
    return 1;
}

我运行以下命令进行编译: g++ -mfpu=neon -ffast-math neon_test.cpp

我的 CPU:ARMv7 处理器版本 0 (v7l)

您对我如何实现更显着的加速有任何想法吗?

4

2 回答 2

5

Cortex-A8 和 Cortex-A9 每个周期只能执行两次 SP FP 乘法,因此您最多可以将这些(最流行的)CPU 的性能提高一倍。实际上,ARM CPU 的 IPC 非常低,因此最好尽可能多地展开循环。如果你想要极致的性能,就用汇编写吧:gcc 的 ARM 代码生成器远不如 x86 好。

我还建议对 Cortex-A9 使用特定于 CPU 的优化选项:“-O3 -mcpu=cortex-a9 -march=armv7-a -mtune=cortex-a9 -mfpu=neon -mthumb”;对于 Cortex-A15、Cortex-A8 和 Cortex-A5,相应地替换 -mcpu=-mtune=cortex-a15/a8/a5。gcc 没有针对 Qualcomm CPU 的优化,因此对于 Qualcomm Scorpion 使用 Cortex-A8 参数(并且展开比您通常做的更多),对于 Qualcomm Krait 尝试使用 Cortex-A15 参数(您需要最新版本的 gcc 支持它)。

于 2012-09-14T08:49:10.573 回答
2

霓虹内在函数的一个缺点是,您不能在负载上使用自动增量,这在您的霓虹实现中显示为额外的指令。

使用 gcc 版本 4.4.3 和选项-c -std=c99 -mfpu=neon -O3编译并使用 objdump 转储,这是 mul_tab_neon 的循环部分

000000a4 <mul_tab_neon>:
  ac:   e0805003    add r5, r0, r3
  b0:   e0814003    add r4, r1, r3
  b4:   e082c003    add ip, r2, r3
  b8:   e2833010    add r3, r3, #16
  bc:   f4650a8f    vld1.32 {d16-d17}, [r5]
  c0:   f4642a8f    vld1.32 {d18-d19}, [r4]
  c4:   e3530e19    cmp r3, #400    ; 0x190
  c8:   f3400df2    vmul.f32    q8, q8, q9
  cc:   f44c0a8f    vst1.32 {d16-d17}, [ip]
  d0:   1afffff5    bne ac <mul_tab_neon+0x8>

这是 mul_tab_standard 的循环部分

00000000 <mul_tab_standard>:
  58:   ecf01b02    vldmia  r0!, {d17}
  5c:   ecf10b02    vldmia  r1!, {d16}
  60:   f3410db0    vmul.f32    d16, d17, d16
  64:   ece20b02    vstmia  r2!, {d16}
  68:   e1520003    cmp r2, r3
  6c:   1afffff9    bne 58 <mul_tab_standard+0x58>

正如您在标准情况下所看到的,编译器创建了更紧密的循环。

于 2012-09-30T20:39:06.027 回答