CUDA 可以利用几种不同形式的任务并行性。我们可以在内核执行的同时来回复制内存。在这种情况下,我们必须使用 cudaHostAlloc 将主机内存分配为固定内存,并且流可用于并行执行事物。但是,如果我只对使用流并行运行几个内核感兴趣,我必须使用固定内存还是可以使用普通的未固定内存(即使用 malloc)?
谢谢,
CUDA 可以利用几种不同形式的任务并行性。我们可以在内核执行的同时来回复制内存。在这种情况下,我们必须使用 cudaHostAlloc 将主机内存分配为固定内存,并且流可用于并行执行事物。但是,如果我只对使用流并行运行几个内核感兴趣,我必须使用固定内存还是可以使用普通的未固定内存(即使用 malloc)?
谢谢,