0

这是我的矩阵乘法代码,但是当我运行它时,我得到第一行的正确结果,但第二行和第三行的结果错误(主要是大的负数)。这是我的第一个程序,所以我使用了一些我在网上找到的代码

 #include <iostream>

__global__ void MnozenjeMatrica(int* d_c, int* d_a, int* d_b)
{
int row = blockIdx.y * blockDim.y + threadIdx.y;
int col = blockIdx.x * blockDim.x + threadIdx.x;    

int d = 0;
for(int i=0; i<3; i++)
{
    int x = d_a[row * 3 + i];
    int y = d_b[i * 3 + col];
    d += x * y;
}

d_c[row * 3 + col] = d; 
}

int main()
{
const int SIZE = 9 * sizeof(int); 

int a[3][3] = {{2, 4, 6}, {1, 3, 5}, {8, 4, 1}};
int b[3][3] = {{5, 8, 34}, {5, 7, 5}, {1, 4, 31}};
int c[3][3] = {{5, 8, 34}, {5, 7, 5}, {1, 4, 31}};

int* d_a;
int* d_b;
int* d_c;

cudaMalloc((void**) &d_a, SIZE);
cudaMalloc((void**) &d_b, SIZE);
cudaMalloc((void**) &d_c, SIZE);

cudaMemcpy(d_a, a, SIZE, cudaMemcpyHostToDevice);
cudaMemcpy(d_b, b, SIZE, cudaMemcpyHostToDevice);

MnozenjeMatrica<<<3, 3>>>(d_c, d_a, d_b);
cudaMemcpy(c, d_c, SIZE, cudaMemcpyDeviceToHost);

for(int i=0; i<3; i++)
{
    for(int j=0;  j<3; j++)
    {
        printf("%d\t", c[i][j]);
    }
    printf("\n");
}


 }
4

1 回答 1

2

完全同意@talonmies。

更多建议:

  • 有很多人发布了有关 cuda 矩阵乘法的问题,您可以查看其中的一些以获得一些想法。
  • 您没有对内核调用和 cuda 调用进行任何cuda 错误检查(但建议这样做)
  • 你可以尝试用 运行你的代码cuda-memcheck,看看它说了什么。
  • printf您可以使用一些选择语句快速调试此内核。毕竟这主要是 C 代码,您应该考虑使用基本的 C 故障排除技术。

由于我能够快速发现这一点,我可以告诉您,您的内核依赖于 2-D 线程块结构来执行任何有用的操作:

int row = blockIdx.y * blockDim.y + threadIdx.y;
int col = blockIdx.x * blockDim.x + threadIdx.x;

但是您正在启动一维线程块的一维网格:

MnozenjeMatrica<<<3, 3>>>(d_c, d_a, d_b);
                  ^  ^
                  |  1-D threadblock (3 threads)
                  1-D grid (3 blocks)

所以我并不惊讶它只适用于单行。

于 2013-05-30T18:16:47.050 回答