c - AVX2 稀疏矩阵乘法

Question

我正在尝试利用新的 AVX2 GATHER 指令来加速稀疏矩阵 - 向量乘法。该矩阵采用 CSR（或耶鲁）格式，带有指向列索引数组的行指针，该列索引数组又保存列。这种 mat-vec mul 的 C 代码看起来像这样：

for (int row = 0; row < n_rows - 1; row++) {
    double rowsum = 0;
    for (int col = row_ptr[row]; col < row_ptr[row + 1]; col++) {
        rowsum += values[col] * x[col_indices[col]];
    }
    result[row] = rowsum;
}

现在我的目标是使用 AVX2 内在函数加速这一过程。以下代码适用于最新的 Intel 或 GCC，基于https://blog.fox-toolkit.org/?p=174。我在这里删除了其余部分，因为无论如何我的行都对齐 4 个双精度数（列 % 4==0）（幸运的是我）。如果有人感兴趣，我也有处理余数的代码，但关键是，代码实际上稍微慢了一点。我检查了反汇编，对于上述版本，仅生成 FP 指令，对于我的 AVX2 代码，所有 AVX2 操作都按预期显示。即使有适合缓存的小矩阵，AVX2 版本也不好。我在这里很困惑...

double* value_base = &values[0];
double* x_base = &x[0];
int*    index_base = &col_indices[0];


for (int row = 0; row < n_rows - 1; row++) {
    int col_length   = row_ptr[row + 1] - row_ptr[row];

    __m256d rowsum = _mm256_set1_pd(0.);
    for (int col4 = 0; col4 < col_length; col4 += 4) {
        // Load indices for x vector(const __m128i*)
        __m128i idxreg     = _mm_load_si128((const __m128i*)index_base);
        // Load 4 doubles from x indexed by idxreg (AVX2)
        __m256d x_     = _mm256_i32gather_pd(x_base, idxreg, 8);
        // Load 4 doubles linear from memory (value array)
        __m256d v_     = _mm256_load_pd(value_base);
        // FMA: rowsum += x_ * v_
        rowsum = _mm256_fmadd_pd(x_, v_, rowsum);

        index_base += 4;
        value_base += 4;
    }
    __m256d s = _mm256_hadd_pd(rowsum, rowsum);
    result[row] = ((double*)&s)[0] + ((double*)&s)[2];
    // Alternative (not faster):
    // Now we split the upper and lower AVX register, and do a number of horizontal adds
    //__m256d hsum = _mm256_add_pd(rowsum, _mm256_permute2f128_pd(rowsum, rowsum, 0x1));
    //_mm_store_sd(&result[row], _mm_hadd_pd( _mm256_castpd256_pd128(hsum), _mm256_castpd256_pd128(hsum) ) );
}

欢迎任何建议。

非常感谢，克里斯

score 9 · Accepted Answer

在 Haswell 上聚集很慢。我以几种不同的方式实现了 16 位值的 8 位索引 LUT 查找（对于 GF16 乘以 par2），以找出最快的方法。在 Haswell 上，该VPGATHERDD版本花费的时间是该movd / pinsrw版本的 1.7 倍。（除了集合之外，只需要几个VPUNPCK/ shift 指令。）这里的代码，如果有人想运行基准。

正如第一次引入指令时常见的那样，它们并没有投入大量的硅来使其超快。它只是为了获得硬件支持，因此可以编写代码来使用它。为了在所有 CPU 上获得理想的性能，您需要做 x264 所做的事情pshufb：为 Core2 之类的 CPU 设置一个SLOW_SHUFFLE标志，并将其纳入您的最佳例程查找函数指针设置中，而不仅仅是 CPU 支持的 insns。

对于不太热衷于为每个可以运行的 CPU 调整 asm 版本的项目，引入指令的无加速版本将使人们更快地使用它，因此当下一个设计出现并且它的速度更快时，更多的代码会加速。发布像 Haswell 这样的设计实际上是一个减速的地方有点冒险。也许他们想看看人们会如何使用它？它确实增加了代码密度，这在收集不处于紧密循环中时会有所帮助。

Broadwell 应该有一个更快的收集实现，但我无权访问。PINSRW列出指令延迟/吞吐量的英特尔手册说，Broadwell 的收集速度大约快 1.6 倍，因此它仍然比在 GP regs 中移动/解包索引并将它们用于向量的手工循环稍慢。

如果gather可以利用多个元素具有相同索引的情况，或者甚至是指向同一个 32B 提取块的索引，那么根据输入数据可能会有一些很大的加速。

希望 Skylake 能进一步改进。我以为我读过一些东西说它会，但是在检查时，我什么也没找到。

RE：稀疏矩阵：是否存在复制数据的格式，因此您可以对行或列进行连续读取？这不是我必须为其编写代码的东西，但我想我已经在一些答案中看到了它的提及。

c - AVX2 稀疏矩阵乘法

1 回答 1

Related

Reference