3

这是我对点积的天真实现:

float simple_dot(int N, float *A, float *B) {
    float dot = 0;
    for(int i = 0; i < N; ++i) {
    dot += A[i] * B[i];
    }

    return dot;
}

这是使用 C++ 库:

float library_dot(int N, float *A, float *B) {
    return std::inner_product(A, A+N, B, 0);
}

我跑了一些基准(代码在这里https://github.com/ijklr/sse),库版本要慢很多。我的编译器标志是-Ofast -march=native

4

1 回答 1

8

你的两个功能不做同样的事情。该算法使用一个累加器,其类型是从初始值推导0出来的,在您的情况下 ( ) 是int. 将浮点数累积到 int 不仅比累积到浮点数花费更长的时间,而且还会产生不同的结果。

您的原始循环代码的等价物是使用初始值0.0f,或等价的float{}

(请注意,std::accumulate在这方面非常相似。)

于 2017-03-28T20:49:30.713 回答