1

我正在尝试学习矢量化,而不是重新设计轮子,我正在使用Agner Fog 的矢量库

这是我原来的 C++/STL 代码

#include <vector>
#include <vectorclass.h>   
template<typename T>
double mean_v1(T begin,T end) {
        float mean = 0;
        std::for_each(begin,end,[&mean](const double& d) { mean+=d; });

    return mean / std::distance(begin,end);
}

double mean_v2(T begin,T end) {
    float mean = 0;
    const int distance = std::distance(begin,end); // This is expensive
    const int loop = ( distance >> 2)+1; // divide by 4
    const int partial = distance & 2; // remainder 4
    Vec4d vec;
    for(int i = 0; i < loop;++i) {
        if(i == (loop-1)) {
            vec.load_partial(partial,&*begin);
            mean = horizontal_add(vec);
        }
        else  {
            vec.load(&*begin);
            mean = horizontal_add(vec);
            begin+=4; // This is expensive
        }
    }
    return mean / distance;
}

int main(int argc,char**argv) {
    using namespace boost::assign;
    std::vector<float> numbers;
    // Note 13 numbers, which won't fit into a sse register perfectly
    numbers+=39.57,39.57,39.604,39.58,39.61,31.669,31.669,31.669,31.65,32.09,33.54,32.46,33.45;

    const float mean1 = mean_v1(numbers.begin(),numbers.end());
    const float mean2 = mean_v2(numbers.begin(),numbers.end());


    return 0;
}

v1 和 v2 都可以正常工作,并且它们都需要大约相同的时间。然而,分析它显示 std::distance() 和移动迭代器几乎占总时间的 45%。向量相加仅为 0.8%,明显快于 v1。

在网上搜索,所有示例似乎都处理完全适合 SSE 寄存器的值。人们如何处理奇数个值,例如在这个例子中,设置循环比计算花费的时间要长得多。

我认为必须有关于如何处理这种情况的最佳实践或想法。

假设我不能将 mean() 的接口更改为 float[],但必须使用迭代器

4

1 回答 1

3

您不必要地混合了 float 和 double ,特别是当您不让您的累加器加倍时,您的精度会完全被破坏,并且对于更大的系列来说不会接近令人满意。

由于算法是超轻量级的,因此破坏您的性能的最有可能是内存访问、读取内存缓存行以及它们如何工作。基本上你需要在这里做的是提前探测,一些处理器有明确的指令来把东西拉到你的缓存中,否则你可以提前在内存位置执行加载。在您的循环中创建另一个级别的嵌套,并定期使用您知道在几次迭代中将获得的数据填充缓存。

人们为了最大限度地提高性能所做的是他们花费大量时间实际设计数据布局。您不需要对数据进行中间转换。所以人们所做的就是分配对齐的内存(大多数 SIMD 指令集要么要求读取/写入未对齐的内存,要么对其施加严重惩罚),然后他们尝试以适合指令集的方式聚合数据。事实上,将数据填充到指令集支持的任何寄存器大小通常是一种胜利。因此,如果假设您要处理 3 维向量,则使用未使用的额外元素进行填充几乎总是一个巨大的胜利。

于 2013-07-02T11:41:11.417 回答