compiler-construction - ARM NEON 矢量化失败

Question

我想在我的 ARM cortex-a9 上启用 NEON 矢量化，但我在编译时得到了这个输出：

“未矢量化：不支持相关 stmt：D.14140_82 = D.14143_77 * D.14141_81”

这是我的循环：

void my_mul(float32_t * __restrict data1, float32_t * __restrict data2, float32_t * __restrict out){    
    for(int i=0; i<SIZE*4; i+=1){
        out[i] = data1[i]*data2[i];
    }
}

以及编译时使用的选项：

-march=armv7-a -mcpu=cortex-a9 -mfpu=neon -mfloat-abi=softfp -ftree-vectorize -mvectorize-with-neon-quad -ftree-vectorizer-verbose=2

我正在使用arm-linux-gnueabi (v4.6) 编译器。

请务必注意，该问题仅出现在float32向量中。如果我切换int32，那么矢量化就完成了。也许 float32 的矢量化还不可用……</p>

有人有想法吗？我是否忘记了 cmd 行或实现中的某些内容？

在此先感谢您的帮助。

吉克斯

score 9 · Accepted Answer

来自GCC 的 ARM 选项页面

-mfpu=名称

...

如果选定的浮点硬件包含 NEON 扩展（例如 -mfpu=`neon'），请注意浮点运算不会由 GCC 的自动矢量化过程生成，除非还指定了 -funsafe-math-optimizations。这是因为 NEON 硬件没有完全实现浮点运算的 IEEE 754 标准（特别是非正规值被视为零），因此使用 NEON 指令可能会导致精度损失。

如果您指定-funsafe-math-optimizations它应该可以工作，但如果您要以高精度使用它，请重新阅读上面的注释。

compiler-construction - ARM NEON 矢量化失败

1 回答 1

Related

Reference