gcc - ARM GCC 错误？使用 vldr 链而不是一个 vldmia…

Question

考虑以下 NEON 优化函数：

void mat44_multiply_neon(float32x4x4_t& result, const float32x4x4_t& a, const float32x4x4_t& b) {
    // Make sure "a" is mapped to registers in the d0-d15 range,
    // as requested by NEON multiply operations below:
    register float32x4_t a0 asm("q0") = a.val[0];
    register float32x4_t a1 asm("q1") = a.val[1];
    register float32x4_t a2 asm("q2") = a.val[2];
    register float32x4_t a3 asm("q3") = a.val[3];
    asm volatile (
    "\n\t# multiply two matrices...\n\t"
    "# result (%q0,%q1,%q2,%q3)  = first column of B (%q4) * first row of A (q0-q3)\n\t"
    "vmul.f32 %q0, %q4, %e8[0]\n\t"
    "vmul.f32 %q1, %q4, %e9[0]\n\t"
    "vmul.f32 %q2, %q4, %e10[0]\n\t"
    "vmul.f32 %q3, %q4, %e11[0]\n\t"
    "# result (%q0,%q1,%q2,%q3) += second column of B (%q5) * second row of A (q0-q3)\n\t"
    "vmla.f32 %q0, %q5, %e8[1]\n\t"
    "vmla.f32 %q1, %q5, %e9[1]\n\t"
    "vmla.f32 %q2, %q5, %e10[1]\n\t"
    "vmla.f32 %q3, %q5, %e11[1]\n\t"
    "# result (%q0,%q1,%q2,%q3) += third column of B (%q6) * third row of A (q0-q3)\n\t"
    "vmla.f32 %q0, %q6, %f8[0]\n\t"
    "vmla.f32 %q1, %q6, %f9[0]\n\t"
    "vmla.f32 %q2, %q6, %f10[0]\n\t"
    "vmla.f32 %q3, %q6, %f11[0]\n\t"
    "# result (%q0,%q1,%q2,%q3) += last column of B (%q7) * last row of A (q0-q3)\n\t"
    "vmla.f32 %q0, %q7, %f8[1]\n\t"
    "vmla.f32 %q1, %q7, %f9[1]\n\t"
    "vmla.f32 %q2, %q7, %f10[1]\n\t"
    "vmla.f32 %q3, %q7, %f11[1]\n\t\n\t"
    : "=&w"  (result.val[0]), "=&w"  (result.val[1]), "=&w"  (result.val[2]), "=&w" (result.val[3])
    : "w"   (b.val[0]),      "w"   (b.val[1]),      "w"   (b.val[2]),      "w"   (b.val[3]),
      "w"   (a0),            "w"   (a1),            "w"   (a2),            "w"   (a3)
    :
    );
}

为什么 GCC 4.5 会生成这种可憎的东西，用于加载第一个矩阵：

vldmia  r1, {d0-d1}
vldr    d2, [r1, #16]
vldr    d3, [r1, #24]
vldr    d4, [r1, #32]
vldr    d5, [r1, #40]
vldr    d6, [r1, #48]
vldr    d7, [r1, #56]

…而不仅仅是：

vldmia  r1, {q0-q3}

……？

我使用的选项：

arm-none-eabi-gcc-4.5.1 -x c++ -march=armv7-a -mcpu=cortex-a8 -mfpu=neon -mfloat-abi=softfp -O3 -ffast-math -fgcse-las -funsafe-loop-optimizations -fsee -fomit-frame-pointer -fstrict-aliasing -ftree-vectorize

请注意，使用 iPhoneOS 提供的编译器会产生相同的结果：

/Developer/Platforms/iPhoneOS.platform/Developer/usr/bin/gcc-4.2 -x c++ -arch armv7 -mcpu=cortex-a8 -mfpu=neon -mfloat-abi=softfp -O3 -ffast-math -fgcse-las -funsafe-loop-optimizations -fsee -fomit-frame-pointer -fstrict-aliasing -ftree-vectorize

score 6 · Accepted Answer

简单的回答：

GCC 编译器目前不太擅长生成 ARM 代码。如果您仔细查看其他代码，您会发现 GCC 几乎从不安排可以使用多个寄存器加载/存储的寄存器，除了函数 prolog/epilog 和内联 memcpy 等硬编码位置。

当谈到使用 Neon 指令时，代码变得更糟。这与 NEON 单元的工作方式有关：您可以将寄存器对视为四字或双字。这是（据我所知）在 GCC 支持的架构中使用寄存器的独特功能。因此，代码生成器并非在所有情况下都生成最佳代码。

顺便说一句：虽然我在这里：GCC 不知道在 Cortex-A8 上使用“免费”桶形移位器功能会对寄存器调度产生重要影响，而 GCC 大多是错误的。

score 1 · Accepted Answer

PPC 具有类似的指令 ( ldmwand stmw)，并且在某些架构上，它的执行速度实际上比等效的加载/存储系列要慢。显然，您可以将其与指令缓存空间或其他考虑因素进行权衡。您应该在目标 ARM 平台上进行测试，看看 gcc 是否真的“错误”。

score 1 · Accepted Answer

这不适用于您提供的代码段，但在真正的 NEON 代码中，将 vld1 拆分为 128 位或 256 位块可能会导致代码性能更好。这是因为 NEON 加载和存储（和置换）可以与其他 NEON 指令双重发布，但双重发布只能在多周期指令的第一个或最后一个周期发生。如果对齐，您可以在 1 个周期内获得 128 位加载，在 2 个周期内获得 256 位加载。

gcc - ARM GCC 错误？使用 vldr 链而不是一个 vldmia…

3 回答 3

Related

Reference