0

我想在我现有的串行矩阵乘法代码上使用 pthreads。我的目标是使用 pthreads 获得更好的执行时间,只是为了实现加速。但在那一点上,我被困住了。我的原始序列代码工作得很好,我在大约 15 秒内完成了 1000x1000 方阵乘法。但是当我执行我当前的 pthreads 程序时,我得到了一个分段错误。这是我的代码:

#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#include <assert.h>

int SIZE, NTHREADS;
int **A, **B, **C;

void init()
{
    int i, j;

    A = (int**)malloc(SIZE * sizeof(int *));
    for(i = 0; i < SIZE; i++)
        A[i] = malloc(SIZE * sizeof(int));

    B = (int**)malloc(SIZE * sizeof(int *));
    for(i = 0; i < SIZE; i++)
        B[i] = malloc(SIZE * sizeof(int));

    C = (int**)malloc(SIZE * sizeof(int *));
    for(i = 0; i < SIZE; i++)
        C[i] = malloc(SIZE * sizeof(int));

    srand(time(NULL));

    for(i = 0; i < SIZE; i++) {
        for(j = 0; j < SIZE; j++) {
            A[i][j] = rand()%100;
            B[i][j] = rand()%100;
        }
    }
}

void mm(int tid)
{
    int i, j, k;
    int start = tid * SIZE/NTHREADS;
    int end = (tid+1) * (SIZE/NTHREADS) - 1;

    for(i = start; i <= end; i++) {
        for(j = 0; j < SIZE; j++) {
            C[i][j] = 0;
            for(k = 0; k < SIZE; k++) {
                C[i][j] += A[i][k] * B[k][j];
            }
        }
    }
}

void *worker(void *arg)
{
    int tid = *((int *) arg);
    mm(tid);
}

int main(int argc, char* argv[])
{
    pthread_t* threads;
    int rc, i;

    if(argc != 3)
    {
        printf("Usage: %s <size_of_square_matrix> <number_of_threads>\n", argv[0]);
        exit(1);
    }

    SIZE = atoi(argv[1]);
    NTHREADS = atoi(argv[2]);
    init();
    threads = (pthread_t*)malloc(NTHREADS * sizeof(pthread_t));

    clock_t begin, end;
    double time_spent;


    begin = clock();

    for(i = 0; i < NTHREADS; i++) {
        rc = pthread_create(&threads[i], NULL, worker, (void *)i);
        assert(rc == 0);
    }

    for(i = 0; i < NTHREADS; i++) {
        rc = pthread_join(threads[i], NULL);
        assert(rc == 0);
    } 

    end = clock();

    time_spent = (double)(end - begin) / CLOCKS_PER_SEC;
    printf("Elapsed time: %.2lf seconds.\n", time_spent);

    for(i = 0; i < SIZE; i++)
        free((void *)A[i]);
    free((void *)A);

    for(i = 0; i < SIZE; i++)
        free((void *)B[i]);
    free((void *)B);

    for(i = 0; i < SIZE; i++)
        free((void *)C[i]);
    free((void *)C);

    free(threads);

    return 0;
}

如果有人可以帮助我使我的 pthreads 程序运行,并实现一些加速,我会很高兴。

4

1 回答 1

3

使用您当前的代码,您应该使用检索索引

int tid = (int)arg;

(您的代码有效地将循环计数器视为地址,然后取消引用 0 或附近的地址。您的进程可能无法读取这些地址和/或不会适当对齐,因此出现 seg 错误)

上述更改可能会为您工作,但请注意将 aint作为 a传递void*并不完全正确。它依赖于sizeof(int) <= sizeof(void*)哪个可能但不能保证是真的。如果您关心这一点,您可以为传递给每个线程的数据分配内存,或者传递地址i并包含同步,以确保您在每次pthread_create调用后等待,直到线程被调度并读取其参数。

于 2013-04-12T14:56:10.210 回答