我正在尝试自己解决这个问题,但我做不到。所以我想听听你的建议。
我正在编写这样的内核代码。VGA是GTX 580。
xxxx <<< blockNum, threadNum, SharedSize >>> (... threadNum ...)
(note. SharedSize is set 2*threadNum)
__global__ void xxxx(..., int threadNum, ...)
{
extern __shared__ int shared[];
int* sub_arr = &shared[0];
int* sub_numCounting = &shared[threadNum];
...
}
我的程序每块创建大约 1085 个块和 1024 个线程。
(我正在尝试处理巨大的数组)
所以每个块的共享内存大小是 8192(1024*2*4)字节,对吧?
我发现通过使用 cudaDeviceProp,我可以在 GTX 580 上的每个块中使用最多 49152 字节的共享内存。
而且我知道 GTX 580 有 16 个处理器,线程块可以在处理器上实现。
但是我的程序出现错误。(8192bytes < 49152bytes)
我在内核中使用“printf”来查看是否运行良好,但有几个块没有运行。(虽然我创建了 1085 个区块,但实际上只有 50~100 个区块在运行。)
而且我想知道在同一处理器上运行的块是否共享相同的共享内存地址。(如果没有,是否为共享内存分配其他内存?)
我当然不能理解每块共享内存的最大大小是什么意思。
给我建议。