1

我正在尝试在 C++ 中创建一个多线程的 for 循环,以便将计算划分为多个线程。然而,它包含需要按原样连接在一起的数据。

所以这个想法是首先加入许多核心(25.000+循环)上的小比特,然后在最后再次加入组合数据。

std::vector<int> ids;               // mappings
std::map<int, myData> combineData;  // data per id
myData outputData;                  // combined data based on the mappings
myData threadData;                  // data per thread

    #pragma parallel for default(none) private(data, threadData) shared(combineData)
        for (int i=0; i<30000; i++)
        {
            threadData += combineData[ids[i]];
        }

    // Then here I would like to get all the seperate thread data and combine them in a similar manner
    // I.e.: for each threadData:  outputData += threadData

解决这个问题的有效和好的方法是什么?

如何安排 openmp 循环,以便将调度平均分成块

例如对于 2 个线程: [0, 1, 2, 3, 4, .., 14999] & [15000, 15001, 15002, 15003, 15004, .., 29999]

如果有更好的方法来连接数据(包括将许多 std::vectors 连接在一起和一些矩阵数学),但保留指向它的添加指针的顺序也会有所帮助。

添加信息

  • 加法是关联的,但不是可交换的。
  • myData 不是内在类型。它是一个包含多个 std::vector 数据的类(以及一些与 Autodesk Maya API 相关的数据。)
  • 每个循环都对许多点进行类似的矩阵乘法,并将这些点添加到向量中(理论上,每个循环的计算时间应该保持大致相似)

基本上,它是将网格数据(由数据向量组成)相互添加(组合网格),尽管整个事物的顺序考虑了顶点的索引值。顶点索引应该是一致的和可重建的。

4

2 回答 2

2

这取决于 的加法运算符的一些属性myData。如果运算符既是关联(A + B) + C = A + (B + C)的又是可交换A + B = B + A的,那么您可以使用一个critical部分,或者如果数据是普通的旧数据(例如浮点数、整数、...) a reduction

但是,如果它不像您所说的那样可交换(操作顺序很重要)但仍然是关联的,您可以用与并行组合数据的线程数相等的元素数填充数组,然后按顺序将它们合并(参见下面的代码。使用 schedule(static) 将或多或少均匀地分割块,并根据需要增加线程数。

如果运算符既不是关联的也不是可交换的,那么我认为您不能并行化它(有效地 - 例如尝试有效地并行化斐波那契数列)。

std::vector<int> ids;               // mappings
std::map<int, myData> combineData;  // data per id
myData outputData;                  // combined data based on the mappings
myData *threadData;
int nthreads;
#pragma omp parallel
{
    #pragma omp single
    {
        nthreads = omp_get_num_threads();
        threadData = new myData[nthreads];
    }
    myData tmp;
    #pragma omp for schedule(static)
    for (int i=0; i<30000; i++) {
        tmp += combineData[ids[i]];
    }
    threadData[omp_get_thread_num()] = tmp;
}
for(int i=0; i<nthreads; i++) {
     outputData += threadData[i];
}
delete[] threadData;

编辑:此时我不确定100%是否会按照增加线程数的顺序分配块#pragma omp for schedule(static)(尽管如果不是,我会感到惊讶)。关于这个问题的讨论正在进行中。同时,如果您想 100% 确定,那么

#pragma omp for schedule(static)
for (int i=0; i<30000; i++) {
    tmp += combineData[ids[i]];
}

你可以做

const int nthreads = omp_get_num_threads();
const int ithread = omp_get_thread_num();
const int start = ithread*30000/nthreads;
const int finish = (ithread+1)*30000/nthreads;
for(int i = start; i<finish; i++) {
     tmp += combineData[ids[i]];          
}

编辑:

我找到了一种更优雅的方式来并行填充但按顺序合并

#pragma omp parallel
{
    myData tmp;
    #pragma omp for schedule(static) nowait 
    for (int i=0; i<30000; i++) {
        tmp += combineData[ids[i]];
    }
    #pragma omp for schedule(static) ordered 
    for(int i=0; i<omp_get_num_threads(); i++) {
        #pragma omp ordered
        outputData += tmp;
    }
}

这避免了为每个线程 ( threadData) 分配数据并在并行区域之外进行合并。

于 2013-09-11T18:08:02.843 回答
1

如果您真的想保留与串行情况相同的顺序,那么除了串行执行之外别无他法。在这种情况下,您可以尝试并行化在operator+=.

如果操作可以随机完成,但块的减少有特定的顺序,那么可能值得一看TBBparallel_reduce。这将需要您编写更多代码,但如果我没记错的话,您可以定义复杂的自定义归约操作。

如果操作的顺序无关紧要,那么您的代码段几乎完成了。它缺少的可能是critical聚合私有数据的构造:

std::vector<int> ids;               // mappings
std::map<int, myData> combineData;  // data per id
myData outputData;                  // combined data based on the mappings

#pragma omp parallel
{ 
    myData threadData;              // data per thread

    #pragma omp for nowait
    for (int ii =0; ii < total_iterations; ii++)
    {
        threadData += combineData[ids[ii]];
    }
    #pragma omp critical
    {
        outputData += threadData;
    }    
    #pragma omp barrier
    // From here on you are ensured that every thread sees 
    // the correct value of outputData 
 }

在这种情况下,for 循环的调度对于语义而言并不重要。如果 的 重载operator+=是一个相对稳定的操作(就计算它所需的时间而言),那么您可以使用schedule(static)which 在线程之间平均划分迭代。否则,您可以求助于其他调度来平衡计算负担(例如schedule(guided))。

最后,如果myData是内部类型的 typedef,那么您可以避免临界区并使用reduction子句:

    #pragma omp for reduction(+:outputData)
    for (int ii =0; ii < total_iterations; ii++)
    {
        outputData += combineData[ids[ii]];
    }

在这种情况下,您不需要将任何内容显式声明为私有。

于 2013-09-11T19:15:37.757 回答