c++ - 为什么combine7的性能比combine5好？

Question

我测试了以下7个函数，我不明白为什么combine7比combine5好。因为它们仅在“（）”的位置上有所不同。

有人可以向我解释吗？

这是我的代码：

#include "Common.h"

#define PLUS
#ifdef PLUS
#define INDENT 0
#define OP +
#else
#define INDENT 1
#define OP *
#endif
typedef int data_t;
typedef struct
{
    long int len;
    data_t *data;
}vec_rec, *vec_ptr;
vec_ptr new_vec(long int len)
{
    vec_ptr result = (vec_ptr)malloc(sizeof(vec_rec));  //Allocate header structure
    if(!result) return NULL;
    result->len = len;
    if(len > 0)     //Allocate array
    {
        data_t* data = (data_t*)calloc(len, sizeof(data_t));
        if(!data)
        {
            free((void*)result);
            return NULL;
        }
        result->data = data;
    }
    else result->data = NULL;
    return result;
}
int get_vec_element(vec_ptr v, long int index, data_t * dest)
{
    if(index < 0 || index >= v->len) return 0;
    *dest = v->data[index];
    return 1;
}
long int vec_length(vec_ptr v)
{
    return v->len;
}
data_t* get_vec_start(vec_ptr v)
{
    return v->data;
}

void combine5(vec_ptr v, data_t* dest)  
{
    long int i;
    long int length = vec_length(v);
    long int limit = length - 1;
    data_t* data = get_vec_start(v);
    data_t acc = INDENT;

    for(i = 0; i < limit; i += 2)
    {
        acc = (acc OP data[i]) OP data[i + 1];  
    }
    for(; i < length; i++)
        acc = acc OP data[i];
    *dest = acc;
}

void combine7(vec_ptr v, data_t* dest)
{
    long int i;
    long int length = vec_length(v);
    long int limit = length - 1;
    data_t* data = get_vec_start(v);
    data_t acc = INDENT;

    for(i = 0; i < limit; i += 2)
    {
        acc = acc OP (data[i] OP data[i + 1]);
    }
    for(; i < length; i++)
        acc = acc OP data[i];
    *dest = acc;
}

std::mt19937 gen;
int roll_die() {

    std::uniform_int_distribution<> dist(1, 6);

    return dist(gen);

}

int main()
{
    const size_t len = 10000000;
    auto vec_pointer = new_vec(len);

    std::generate(vec_pointer->data, vec_pointer->data + vec_pointer->len, roll_die);
    std::cout << "Initialized datas..." << std::endl;
    /*std::copy(vec_pointer->data, vec_pointer->data + vec_pointer->len, 
        std::ostream_iterator<int>(std::cout, "\t"));*/

    data_t dest = 0;

    utility::CStopwatch stopwatch5;
    combine5(vec_pointer, &dest);
    std::cout << "combine5 elapsed time(microseconds): " << stopwatch5.NowInMicro() << std::endl;

    utility::CStopwatch stopwatch7;
    combine7(vec_pointer, &dest);
    std::cout << "combine7 elapsed time(microseconds): " << stopwatch7.NowInMicro() << std::endl;
}

这是我的结果：

Initialized datas...
combine5 elapsed time(microseconds): 16934
combine7 elapsed time(microseconds): 14858

score 1 · Accepted Answer

acc = (acc OP data[i]) OP data[i + 1]; 自然是慢于
acc = acc OP (data[i] OP data[i + 1]);

因为在第一种情况下，您尝试在不同的操作中访问数据元素 data[i] 和 data[i+1]，这会导致显着的开销，而在第二种情况下，您尝试通过以下操作同时访问它们 (data[i] OP data[i + 1])因为它们是相邻的内存位置，并且相互迭代比在单独的时刻访问它们相对更快。

score 0 · Accepted Answer

如果您真的有兴趣找出导致不同功能执行不同的原因，那么分析编译器生成的汇编代码可能是一个想法。这些函数足够简单，可以在汇编中阅读，即使是通常对此不习惯的人也是如此。

在函数 3中，您在每次迭代中取消引用：

for(i = 0; i < length; i ++)
{
    *dest = *dest OP data[i];   
}

在函数 4中，您只能在最后取消引用：

for(i = 0; i < length; i ++)
{
    acc = acc OP data[i];
}
*dest = acc;

函数 5更快，因为它只迭代一半的迭代次数。请参阅：循环展开

score 0 · Accepted Answer

目前还不清楚为什么这些应该有很大不同（当然，fatih_k 的解释并不能说服我）。由于您的运算符是可交换的，因此编译器可能想要更改顺序（取决于编译器标志）。您是否尝试过不同的编译器标志（特别是优化标志）和不同的编译器（clang、gcc、icpc）？

另外，以下形式的循环体的表现如何？

 {
    acc *= data[i];
    acc *= data[i+1];
 }

附注：避免使用那些糟糕的宏。改为编写模板代码。

c++ - 为什么combine7的性能比combine5好？

3 回答 3

Related

Reference