4

编辑以对应链接问题后的当前状态。

我目前正在尝试在 CUDA 中重新实现基本的矩阵乘法,虽然我的代码适用于方阵和尺寸为 8 的倍数的矩形矩阵,但它似乎不适用于尺寸不是 8 的倍数的矩形矩阵。

以下是我的内核乘法函数:

 __global__ void matrixMultiply(float * A, float * B, float * C,
               int numARows, int numAColumns,
               int numBRows, int numBColumns,
               int numCRows, int numCColumns) {
    int Row = blockIdx.y * blockDim.y + threadIdx.y;
    int Col = blockIdx.x * blockDim.x + threadIdx.x;
    if (numAColumns != numBRows) return ;
    if ((Row < numARows) && (Col < numBColumns)){
        float Cvalue = 0;
        for (int k = 0 ; k < numAColumns ; ++k )
            Cvalue += A[Row*numAColumns + k] * B[k * numBColumns + Col];
        C[Row*numCColumns + Col] = Cvalue;
    }

}

以下是内存分配(为了便于阅读,我删除了错误检查):

cudaMalloc((void**) &deviceA, ARows*sizeof(float)*AColumns);
cudaMalloc((void**) &deviceB, BRows*sizeof(float)*BColumns);
cudaMalloc((void**) &deviceC, CRows*sizeof(float)*CColumns);
cudaMemcpy(deviceA, hostA, ARows*sizeof(float)*AColumns, cudaMemcpyHostToDevice);
cudaMemcpy(deviceB, hostB, BRows*sizeof(float)*BColumns, cudaMemcpyHostToDevice);
cudaMemcpy(deviceC, hostC, CRows*sizeof(float)*CColumns, cudaMemcpyHostToDevice);

虽然以下是调用:

dim3 dimGrid((int)ceil(numCRows / 8.0) , (int)ceil(numCColumns / 8.0), 1);
dim3 dimBlock(8 , 8, 1);
multiplyMatrices<<<dimGrid,dimBlock>>>(deviceA, deviceB, deviceC, numARows, AColumns, BRows, BColumns, CRows, CColumns);

最后将内存移回: cudaMemcpy(hostC, deviceC, CRows*sizeof(float)*CColumns, cudaMemcpyDeviceToHost);

现在我已经反复跟踪我的算法,我不相信它有什么问题,所以我个人认为我使用的块/网格大小调整方案可能有问题。如果任何比我更了解 CUDA/C 的人(这里是 Ruby/JavaScript 的人),可以看看它,并引导我了解我做错了什么,我将非常感激。

4

1 回答 1

3

问题在于您正在创建的网格大小:

dim3 dimGrid((int)ceil(numCRows / 8.0) , (int)ceil(numCColumns / 8.0), 1);

由于行是矩阵的 Y 维度,列是 X 维度,因此您实际上是在创建转置网格。

要创建正确的网格,请执行以下操作:

dim3 dimGrid((int)ceil(numCColumns / 8.0) , (int)ceil(numCRows / 8.0), 1);

更好的方法是执行以下操作:

dim3 dimGrid;

dimGrid.x = (numCColumns + dimBlock.x - 1)/dimBlock.x;

dimGrid.y = (numCRows + dimBlock.y - 1)/dimBlock.y;
于 2012-12-23T17:30:50.270 回答