考虑在K2000 GPU卡(计算能力3.0)上执行的GPU核函数如下图所示:
#define TILE_DIM 64
__global__ void PerformSomeOperations(float* g_A, float* g_B)
{
__shared__ float BlockData[TILE_DIM][TILE_DIM];
// Some Operation to be performed
}
如何确定可以在单个多处理器上并行执行的最大块数和线程数?另外,如果我有 N 个块,这是否意味着每个块的共享内存将除以 N?