我有一个可以并行化的 C++ 程序。我正在使用 Visual Studio 2010,32 位编译。
简而言之,程序的结构如下
#define num_iterations 64 //some number
struct result
{
//some stuff
}
result best_result=initial_bad_result;
for(i=0; i<many_times; i++)
{
result *results[num_iterations];
for(j=0; j<num_iterations; j++)
{
some_computations(results+j);
}
// update best_result;
}
由于每个some_computations()
都是独立的(读取了一些全局变量,但没有修改全局变量),我并行化了内部for
循环。
我的第一次尝试是boost::thread,
thread_group group;
for(j=0; j<num_iterations; j++)
{
group.create_thread(boost::bind(&some_computation, this, result+j));
}
group.join_all();
结果很好,但我决定尝试更多。
我尝试了OpenMP库
#pragma omp parallel for
for(j=0; j<num_iterations; j++)
{
some_computations(results+j);
}
结果比boost::thread
's'差。
然后我尝试了ppl库并使用了parallel_for()
:
Concurrency::parallel_for(0,num_iterations, [=](int j) {
some_computations(results+j);
})
结果是最糟糕的。
我发现这种行为非常令人惊讶。由于 OpenMP 和 ppl 是为并行化而设计的,因此我预计会得到比boost::thread
. 我错了吗?
为什么boost::thread
给我更好的结果?