c - GCC 自动矢量化对运行时没有影响，即使在所谓“有利可图”的情况下也是如此

Question

在过去的几天里，我一直在阅读有关 gcc 4.7 的自动矢量化的信息。我按照我在网上看到的一些例子，设置似乎是正确的。但是当我实际使用代码运行并比较矢量化打开或关闭时，运行时没有明显差异。

这是我一直在使用的代码：

#include <string.h>
#include <stdlib.h>
#include <emmintrin.h>
#include <stdio.h>
#include <math.h>

int main(int argc, char** argv) {

    long b = strtol(argv[2], NULL, 0); 
    unsigned long long int i;
    unsigned long long int n = (int)pow(2,29);                                                                                                                                                                                            
    float total = 0;

    float *__restrict__ x1; 
    float *__restrict__ y1; 

    posix_memalign((void *)&x1, 16, sizeof(float)*n);
    posix_memalign((void *)&y1, 16, sizeof(float)*n);


    float *__restrict__ x = __builtin_assume_aligned(x1,16);
    float *__restrict__ y = __builtin_assume_aligned(y1,16);

    for (i=0;i<n;i++) {
            x[i] = i;
            y[i] = i;
    }   

    for (i=0; i<n; i++) {
            y[i] += x[i];
    }   

    printf("y[%li]: \t\t\t\t%f\n",  b,y[b]);
    printf("correct answer: \t\t\t%f\n", (b)*2);
    return 0;
}

其中一些东西对我来说似乎是多余的，但对于让编译器了解正在发生的事情是必要的（尤其是数据对齐的事实）。从命令行读取的“b”变量就在那里，因为我对编译器完全优化循环感到偏执。

这是启用矢量化时的编译器命令：

gcc47 -ftree-vectorizer-verbose=3 -msse2 -lm -O2 -finline-functions -funswitch-loops -fpredictive-commoning -fgcse-after-reload -fipa-cp-clone test.c -ftree-vectorize -o v

基本上，这相当于只使用 -O3。我把标志放在自己身上，所以我需要做的就是删除“ftree-vectorize”并能够在没有矢量化的情况下测试结果。

这是 ftree-vectorize-verbose 标志的输出，以表明代码实际上正在被矢量化：

Analyzing loop at test.c:29

29: vect_model_load_cost: aligned.
29: vect_model_load_cost: inside_cost = 1, outside_cost = 0 .
29: vect_model_load_cost: aligned.
29: vect_model_load_cost: inside_cost = 1, outside_cost = 0 .
29: vect_model_simple_cost: inside_cost = 1, outside_cost = 0 .
29: vect_model_store_cost: aligned.
29: vect_model_store_cost: inside_cost = 1, outside_cost = 0 .
29: cost model: Adding cost of checks for loop versioning aliasing.

29: Cost model analysis: 
  Vector inside of loop cost: 4
  Vector outside of loop cost: 4
  Scalar iteration cost: 4
  Scalar outside cost: 1
  prologue iterations: 0
  epilogue iterations: 0
  Calculated minimum iters for profitability: 2

29:   Profitability threshold = 3


Vectorizing loop at test.c:29

29: Profitability threshold is 3 loop iterations.
29: created 1 versioning for alias checks.

29: LOOP VECTORIZED.
Analyzing loop at test.c:24

24: vect_model_induction_cost: inside_cost = 2, outside_cost = 2 .
24: vect_model_simple_cost: inside_cost = 2, outside_cost = 0 .
24: not vectorized: relevant stmt not supported: D.5806_18 = (float) D.5823_58;

test.c:7: note: vectorized 1 loops in function.

请注意，矢量化在 3 次迭代后是有利可图的，并且我正在运行 2^29~=500,000,000 次迭代。所以我应该期待一个完全不同的运行时关闭矢量化，对吧？

好吧，这里是代码的运行时间（我连续运行了 20 次）：

扔掉那个奇怪的约 370 秒的异常值，平均运行时间为 58.7 秒，标准差为 6.0 秒。

接下来，我将使用与之前相同的命令进行编译，但没有 -ftree-vectorize 标志：

gcc47 -ftree-vectorizer-verbose=3 -msse2 -lm -O2 -finline-functions -funswitch-loops -fpredictive-commoning -fgcse-after-reload -fipa-cp-clone test.c -o nov

再次连续运行程序 20 次会产生以下时间：

再次丢弃异常值，这给出了 57.9 秒的平均运行时间，标准偏差为 3.6 秒。

所以这两个版本的运行时间在统计上是无法区分的。

谁能指出我做错了什么？编译器吐出的“盈利门槛”不是我想的意思吗？我非常感谢人们能给我的任何帮助，过去一周我一直在努力解决这个问题。

编辑：

我实施了@nilspipenbrinck 建议的更改，并且似乎奏效了。我将矢量化循环卡在一个函数中，并多次调用该函数。相对运行时间现在为 24.0 秒（sigma 为 <0.1 秒），无矢量化相对于 20.8 秒（sigma < 0.2 秒）矢量化，或 13% 的速度提升。没有我希望的那么多，但至少现在我知道它的工作原理了！感谢您花时间查看我的问题并写下答案，我真的很感激。

score 5 · Accepted Answer

你不会做很多算术。因此，您的测试代码的运行时间是受内存限制的。例如，您花费大部分时间在 CPU 和内存之间移动数据。

此外，您的 n 非常大，有 2^29 个元素。因此，您不会以任何方式从一级和二级缓存中受益。

如果您想看到 SSE 的改进，请使用较小的 n，以便您只接触 8 或 16 KB 的数据。还要确保数据是“热的”，例如它最近被 CPU 访问过。这样，数据不必从主内存中移动，而是从高速缓存中移动，速度要快几个数量级。

作为替代方案，您还可以做更多的算术运算。这将使内存预取系统有机会在您利用 CPU 进行数学运算时在后台从主内存中获取数据。

总结：如果算术比您的系统移动内存的速度更快，您将看不到任何好处。内存访问时间将成为瓶颈，您使用 SSE 指令集节省的几个周期将迷失在内存访问时间的噪音中。

score 2 · Accepted Answer

有几个因素决定了矢量化代码的盈利能力。在这种情况下（基于您提供的输出），编译器仅对一个循环进行矢量化，我认为这是第二个循环，因为第一个循环通常会被忽略，因为没有进行足够的计算使其对矢量化有利可图.

您发布的运行时间是针对整个代码的，而不是单独针对循环的，因此对于整个运行时间来说，向量化只会做这么多。如果你真的想看看矢量化有多少改进，我建议运行一个分析器，如 AMD Code XL、Intel Vtune、OProfile 等，它会专门告诉你该循环在时间和性能方面有多大改进正在制作。

现在我正在评估矢量化编译器，我将通过矢量化将代码运行速度提高 60 倍，其他时候速度提升并不那么令人印象深刻，这完全取决于循环、编译器和您使用的架构.

c - GCC 自动矢量化对运行时没有影响，即使在所谓“有利可图”的情况下也是如此

2 回答 2

Related

Reference