c# - CUDAfy CopyFromDevice 比 CopyToDevice 慢几个数量级

Question

我正在使用小型重力模拟测试 CUDAfy，在对代码运行分析器后，我发现大部分时间都花在了 GPU 的 CopyFromDevice 方法上。这是代码：

    private void WithGPU(float dt)
    {
        this.myGpu.CopyToDevice(this.myBodies, this.myGpuBodies);
        this.myGpu.Launch(1024, 1, "MoveBodies", -1, dt, this.myGpuBodies);
        this.myGpu.CopyFromDevice(this.myGpuBodies, this.myBodies);
    }

澄清一下，this.myBodies 是一个包含 10,000 个结构的数组，如下所示：

[Cudafy(eCudafyType.Struct)]
[StructLayout(LayoutKind.Sequential)]
internal struct Body
{
    public float Mass;

    public Vector Position;

    public Vector Speed;
}

Vector 是一个带有两个浮点数 X 和 Y 的结构体。

根据我的分析器，这三行的平均时间是 0.092、0.192 和 222.873 毫秒。这些时间是在带有 NVIDIA NVS 310 的 Windows 7 上进行的。

有没有办法提高 CopyFromDevice() 方法的时间？

谢谢

score 2 · Accepted Answer

CUDA 内核启动是异步的。这意味着在启动内核后立即释放 CPU 线程以在内核启动后立即处理代码，而内核仍在执行。

如果后续代码包含任何类型的 CUDA 执行屏障，则 CPU 线程将在屏障处停止，直到内核执行完成。在 CUDA 中，cudaMemcpy（cudafyCopyFromDevice方法底层的操作）和cudaDeviceSynchronize（cudafySynchronize方法底层的操作）都包含执行障碍。

因此，从主机代码的角度来看，内核启动后立即出现的这种屏障似乎会在内核执行期间停止 CPU 线程执行。

出于这个原因，这个例子中的特定障碍将包括内核执行时间和数据复制时间。您可以Synchronize在内核启动后立即使用屏障方法来消除通过分析主机代码指示的时间的歧义。

c# - CUDAfy CopyFromDevice 比 CopyToDevice 慢几个数量级

1 回答 1

Related

Reference