sdk - 为什么 OpenCL 矢量添加 Nvidia SDK 示例使用异步写入？

Question

向量加法示例具有以下代码：

// Asynchronous write of data to GPU device
ciErr1 = clEnqueueWriteBuffer(cqCommandQueue, cmDevSrcA, CL_FALSE, 0, sizeof(cl_float) * szGlobalWorkSize, srcA, 0, NULL, NULL);
ciErr1 |= clEnqueueWriteBuffer(cqCommandQueue, cmDevSrcB, CL_FALSE, 0, sizeof(cl_float) * szGlobalWorkSize, srcB, 0, NULL, NULL);
shrLog("clEnqueueWriteBuffer (SrcA and SrcB)...\n"); 
if (ciErr1 != CL_SUCCESS)
{
    shrLog("Error in clEnqueueWriteBuffer, Line %u in file %s !!!\n\n", __LINE__, __FILE__);
    Cleanup(EXIT_FAILURE);
}

// Launch kernel
ciErr1 = clEnqueueNDRangeKernel(cqCommandQueue, ckKernel, 1, NULL, &szGlobalWorkSize, &szLocalWorkSize, 0, NULL, NULL);
shrLog("clEnqueueNDRangeKernel (VectorAdd)...\n"); 
if (ciErr1 != CL_SUCCESS)

之后它会立即启动内核。这怎么不会引起问题？我们不能保证内核启动时图形内存缓冲区已被完全写入，对吗？

score 2 · Accepted Answer

虽然从主机的角度来看，写入是异步的，但从设备的角度来看，它们不一定是异步的。我假设命令队列是在没有 CL_QUEUE_OUT_OF_ORDER_EXEC_MODE_ENABLE 的情况下创建的，所以它是一个有序的命令队列。

opencl 规范对按顺序执行进行了如下说明：

按顺序执行：命令按照它们在命令队列中出现的顺序启动并按顺序完成。换句话说，队列上的前一个命令在下一个命令开始之前完成。这将队列中命令的执行顺序序列化。

因此，写入应该在内核在设备上执行之前完成。

sdk - 为什么 OpenCL 矢量添加 Nvidia SDK 示例使用异步写入？

1 回答 1

Related

Reference