将 CUDA 5 与 VS 2012 和功能 3.5(Titan 和 K20)一起使用。
在内核执行的特定阶段,我想将生成的数据块发送到主机内存并通知主机数据已准备好,以便主机对其进行操作。
我不能等到内核执行结束才从设备读回数据,因为:
- 一旦计算出来,数据就不再与设备相关,因此没有必要将其保留到最后。
- 数据量太大,设备内存装不下,等到最后。
- 主机不必等到内核执行结束才开始处理数据。
您能否指出我必须采取的路径以及我必须用来实现我的要求的可能的 cuda 概念和功能?简而言之,如何写入主机并通知主机块数据已准备好供主机处理?
注意每个线程不与任何其他线程共享任何生成的数据,它们独立运行。所以,据我所知(如果我错了,请纠正我),块、线程和扭曲的概念不会影响问题。或者换句话说,如果它们有助于答案,我可以自由地改变它们的组合。
下面是一个示例代码,表明我正在尝试做:
#pragma once
#include <conio.h>
#include <cstdio>
#include <cuda_runtime_api.h>
__global__ void Kernel(size_t length, float* hResult)
{
int tid = threadIdx.x + blockIdx.x * blockDim.x;
// Processing multiple data chunks
for(int i = 0;i < length;i++)
{
// Once this is assigned, I don't need it on the device anymore.
hResult[i + (tid * length)] = i * 100;
}
}
void main()
{
size_t length = 10;
size_t threads = 2;
float* hResult;
// An array that will hold all data from all threads
cudaMallocHost((void**)&hResult, threads * length * sizeof(float));
Kernel<<<threads,1>>>(length, hResult);
// I DO NOT want to wait to the end and block to get the data
cudaError_t error = cudaDeviceSynchronize();
if (error != cudaSuccess) { throw error; }
for(int i = 0;i < threads * length;i++)
{
printf("%f\n", hResult[i]);;
}
cudaFreeHost(hResult);
system("pause");
}