我使用x
&y
来计算设备中矩阵的单元格。当我为 lenA 和 lenB 使用超过 32 个时,断点(int x= threadIdx.x;
在设备代码中)无法工作并且输出不正确。
在主机代码中:
int lenA=52;
int lenB=52;
dim3 threadsPerBlock(lenA, lenB);
dim3 numBlocks(lenA / threadsPerBlock.x, lenB / threadsPerBlock.y);
kernel_matrix<<<numBlocks,threadsPerBlock>>>(dev_A, dev_B);
在设备代码中:
int x= threadIdx.x;
int y= threadIdx.y;
...