c++ - 简单的 getter/accessor 防止矢量化 - gcc 错误？

Question

考虑这个固定的最小实现vector<int>：

constexpr std::size_t capacity = 1000;

struct vec 
{
    int values[capacity];
    std::size_t _size = 0;    

    std::size_t size() const noexcept 
    { 
        return _size; 
    }

    void push(int x) 
    {
        values[size()] = x;
        ++_size;
    }
};

给定以下测试用例：

vec v;
for(std::size_t i{0}; i != capacity; ++i) 
{
    v.push(i);
}

asm volatile("" : : "g"(&v) : "memory");

编译器生成非矢量化程序集：godbolt.org上的实时示例

如果我进行以下任何更改...

values[size()]->values[_size]
添加__attribute__((always_inline))到size()

...然后编译器生成矢量化程序集：godbolt.org上的实时示例

这是一个 gcc 错误吗？或者，除非明确添加，否则是否有一个简单的访问器（例如，size()会阻止自动矢量化）的原因？always_inline

score 1 · Accepted Answer

您示例中的循环针对 GCC < 7.1 进行了矢量化，而不针对 GCC >= 7.1 进行了矢量化。所以这里的行为似乎发生了一些变化。

我们可以通过在命令行中添加来查看编译器优化报告：-fopt-info-vec-all

对于 GCC 7.3：

<source>:24:29: note: === vect_pattern_recog ===
<source>:24:29: note: === vect_analyze_data_ref_accesses ===
<source>:24:29: note: not vectorized: complicated access pattern.
<source>:24:29: note: bad data access.
<source>:21:5: note: vectorized 0 loops in function.

对于 GCC 6.3：

<source>:24:29: note: === vect_pattern_recog ===
<source>:24:29: note: === vect_analyze_data_ref_accesses ===
<source>:24:29: note: === vect_mark_stmts_to_be_vectorized ===
[...]
<source>:24:29: note: LOOP VECTORIZED
<source>:21:5: note: vectorized 1 loops in function.

因此 GCC 7.x 决定不对循环进行矢量化，因为访问模式很复杂，这可能是（当时）非内联size()函数。强制内联，或手动进行修复。GCC 6.x 似乎可以自己做到这一点。但是，在这两种情况下，程序集看起来确实size()是最终内联的，但可能只是在 GCC 7.x 中的矢量化步骤之后（这是我的猜测）。

我想知道为什么你把这asm volatile(...)行放在最后——可能是为了防止编译器丢弃整个循环，因为它在这个测试用例中没有明显的效果。如果我们只返回的最后一个元素，我们可以达到相同的效果，v而不会对的内存模型造成任何可能的副作用v。

return v.values[capacity - 1];

代码现在用 GCC 7.x 向量化，就像它已经用 GCC 6.x 做的那样：

<source>:24:29: note: === vect_pattern_recog ===
<source>:24:29: note: === vect_analyze_data_ref_accesses ===
<source>:24:29: note: === vect_mark_stmts_to_be_vectorized ===
[...]
<source>:24:29: note: LOOP VECTORIZED
<source>:21:5: note: vectorized 1 loops in function.

那么这里的结论是什么？

GCC 7.1 发生了一些变化
最佳猜测：防止矢量化asm volatile的内联混乱的副作用size()

这是否是一个错误 - 可能在 6.x 或 7.x 中，具体取决于构造所需的行为asm volatile()- 对于 GCC 开发人员来说是一个问题。

另外：根据您的硬件，尝试在命令行中添加-mavx2或-mavx512f -mavx512cd（或等），以获得超过 128 位的矢量化，即和寄存器。-march=nativexmmymmzmm

score 0 · Accepted Answer

我可以缩小问题的范围。

双精度或单精度以及优化标志 -std=c++11 -Ofast -march=native：

版本 >= 5.0.0 的 Clang 使用 zmm 寄存器生成 AVX 移动指令

4.9 <= 版本 <= 6.3 的 Gcc 使用 zmm 寄存器生成 AVX 移动指令

版本 >= 7.1.0 的 Gcc 生成带有 xmm 寄存器的 AVX 移动指令

试试看：https ://godbolt.org/g/NXgF4g

c++ - 简单的 getter/accessor 防止矢量化 - gcc 错误？

2 回答 2

Related

Reference