gcc - 如何在编译时检测 SSE/SSE2/AVX/AVX2/AVX-512/AVX-128-FMA/KCVI 可用性？

Question

我正在尝试优化一些矩阵计算，我想知道是否可以在编译时检测 SSE/SSE2/AVX/AVX2/AVX-512/AVX-128-FMA/KCVI ^[1]是否由编译器？非常适合 GCC 和 Clang，但我只能使用其中一个来管理。

我不确定这是否可行，也许我会使用自己的宏，但我更愿意检测它并要求用户选择它。

^[1] “KCVI”代表 Knights Corner Vector Instruction 优化。FFTW 之类的库检测/利用这些更新的指令优化。

score 114 · Accepted Answer

大多数编译器会自动定义：

__SSE__
__SSE2__
__SSE3__
__AVX__
__AVX2__

等等，根据您传递的任何命令行开关。您可以使用 gcc（或与 gcc 兼容的编译器，如 clang）轻松检查这一点，如下所示：

$ gcc -msse3 -dM -E - < /dev/null | egrep "SSE|AVX" | sort
#define __SSE__ 1
#define __SSE2__ 1
#define __SSE2_MATH__ 1
#define __SSE3__ 1
#define __SSE_MATH__ 1

或者：

$ gcc -mavx2 -dM -E - < /dev/null | egrep "SSE|AVX" | sort
#define __AVX__ 1
#define __AVX2__ 1
#define __SSE__ 1
#define __SSE2__ 1
#define __SSE2_MATH__ 1
#define __SSE3__ 1
#define __SSE4_1__ 1
#define __SSE4_2__ 1
#define __SSE_MATH__ 1
#define __SSSE3__ 1

或仅检查特定平台上默认构建的预定义宏：

$ gcc -dM -E - < /dev/null | egrep "SSE|AVX" | sort
#define __SSE2_MATH__ 1
#define __SSE2__ 1
#define __SSE3__ 1
#define __SSE_MATH__ 1
#define __SSE__ 1
#define __SSSE3__ 1

最新的 Intel 处理器支持 AVX-512，它不是单片指令集。下面的两个示例可以查看 GCC（6.2 版）提供的支持。

这是骑士登陆：

$ gcc -march=knl -dM -E - < /dev/null | egrep "SSE|AVX" | sort
#define __AVX__ 1
#define __AVX2__ 1
#define __AVX512CD__ 1
#define __AVX512ER__ 1
#define __AVX512F__ 1
#define __AVX512PF__ 1
#define __SSE__ 1
#define __SSE2__ 1
#define __SSE2_MATH__ 1
#define __SSE3__ 1
#define __SSE4_1__ 1
#define __SSE4_2__ 1
#define __SSE_MATH__ 1
#define __SSSE3__ 1

这是 Skylake AVX-512：

$ gcc -march=skylake-avx512 -dM -E - < /dev/null | egrep "SSE|AVX" | sort
#define __AVX__ 1
#define __AVX2__ 1
#define __AVX512BW__ 1
#define __AVX512CD__ 1
#define __AVX512DQ__ 1
#define __AVX512F__ 1
#define __AVX512VL__ 1
#define __SSE__ 1
#define __SSE2__ 1
#define __SSE2_MATH__ 1
#define __SSE3__ 1
#define __SSE4_1__ 1
#define __SSE4_2__ 1
#define __SSE_MATH__ 1
#define __SSSE3__ 1

英特尔已经披露了额外的 AVX-512 子集（请参阅ISA 扩展）。GCC（版本 7）支持与 AVX-512 的 4FMAPS、4VNNIW、IFMA、VBMI 和 VPOPCNTDQ 子集相关的编译器标志和预处理器符号：

for i in 4fmaps 4vnniw ifma vbmi vpopcntdq ; do echo "==== $i ====" ; gcc -mavx512$i -dM -E - < /dev/null | egrep "AVX512" | sort ; done
==== 4fmaps ====
#define __AVX5124FMAPS__ 1
#define __AVX512F__ 1
==== 4vnniw ====
#define __AVX5124VNNIW__ 1
#define __AVX512F__ 1
==== ifma ====
#define __AVX512F__ 1
#define __AVX512IFMA__ 1
==== vbmi ====
#define __AVX512BW__ 1
#define __AVX512F__ 1
#define __AVX512VBMI__ 1
==== vpopcntdq ====
#define __AVX512F__ 1
#define __AVX512VPOPCNTDQ__ 1

请注意，SSE 宏不适用于 Visual C++。你必须_M_IX86_FP改用.

score 1 · Accepted Answer

1

看看 archspec，一个专门为此目的而构建的库： https: //github.com/archspec/archspec

于 2020-08-23T11:38:12.967 回答

gcc - 如何在编译时检测 SSE/SSE2/AVX/AVX2/AVX-512/AVX-128-FMA/KCVI 可用性？

2 回答 2

Related

Reference