我有以下代码片段:
__constant__ int baseLineX[4000];
__constant__ int baseLineY[4000];
__constant__ int guideLineX[4000];
__constant__ int guideLineY[4000];
__constant__ int rectangleOffsets[8];
__constant__ float blurKernel[64];
<other code>
for(int i = 0; i < 8; i++)
hostRectangleOffsets[i] = i;
cudaMemcpyToSymbol(rectangleOffsets, hostRectangleOffsets, 8*sizeof(int));
此代码在 Tesla K40 上运行良好,但在 16GB Tesla V100 上运行良好。(即使是我的笔记本电脑也可以使用 4GB Quaddro M2200 GPU 运行代码)。
代码只是挂在 V100 上,永远不会从 cudaMemcpyToSymbol 调用返回,但看起来它仍在 GPU 上处理。有任何想法吗?