以下工作正常;
__extern__ float dyanimicSh1D[];
但以下不起作用:
__extern__ float dyanimicSh2D[][];
我想了解为什么会这样?
以下工作正常;
__extern__ float dyanimicSh1D[];
但以下不起作用:
__extern__ float dyanimicSh2D[][];
我想了解为什么会这样?
您不能这样做,因为编译器需要数组的宽度信息来生成执行正确索引的代码。
如果您像这样以静态方式分配共享内存:
__shared__ float sarr[24][12];
然后,您不仅要告诉分配/提供多少内存,还要给出数组的宽度(本例中为 12)。这很重要,因为这种类型的静态 2D 数组在底层不被视为指针数组,而是在编译时由编译器创建索引的平面分配。
这样以后当你做这样的事情时:
float val = sarr[y][x];
在取消引用该指针以检索值之前,编译器将获取该sarr
指针,并进行指针运算以将 x + (y*12) 添加到它。该计算中的 12 在编译时发现并由编译器用于生成代码以进行索引。
做这样的事情:
extern __shared__ float sarr[][];
不向编译器提供数组宽度信息,因此它无法在编译时生成所需的索引,并且是不允许的。
顺便说一句,这有效:
extern __shared__ float sarr[][12];
这是一个例子:
$ cat t46.cu
#include <cstdio>
__global__ void k(int x, int y){
extern __shared__ float sarr[][12];
for (int i = 0; i < 32; i ++)
for (int j = 0; j < 12; j++)
sarr[i][j] = i * 256 + j;
float val = sarr[y][x];
printf("%f\n", val);
}
int main(){
k<<<1,1,128*12>>>(3,2);
cudaDeviceSynchronize();
}
$ nvcc -o t46 t46.cu
$ cuda-memcheck ./t46
========= CUDA-MEMCHECK
515.000000
========= ERROR SUMMARY: 0 errors
$