opencl - OpenCL MultiGPU 比单 GPU 慢

Question

我正在开发一个对视频帧数据执行一些处理的应用程序。为了加速它，我使用了 2 个图形卡并使用 OpenCL 处理数据。我的想法是将一帧发送到第一张卡，另一帧发送到第二张卡。这些设备使用相同的上下文，但不同的命令队列、内核和内存对象。

但是，在我看来，计算不是并行执行的，因为 2 张卡所需的时间几乎与仅一张显卡所需的时间相同。

有没有人有一个很好的例子，可以同时在独立的数据片段上使用多个设备？

提前致谢。

编辑：

这是切换到 2 个单独的上下文后的结果代码。但是，2 个显卡的执行时间仍然与 1 个显卡相同。

    cl::NDRange globalws(imageSize);
    cl::NDRange localws;

    for (int i = 0; i < numDevices; i++){
            // Copy the input data to the device
            commandQueues[i].enqueueWriteBuffer(inputDataBuffer[i], CL_TRUE, 0, imageSize*sizeof(float), wt[i].data);

            // Set kernel arguments
            kernel[i].setArg(0, inputDataBuffer[i]);

            kernel[i].setArg(1, modulusBuffer[i]);
            kernel[i].setArg(2, imagewidth);
        }

        for (int i = 0; i < numDevices; i++){
            // Run kernel
            commandQueues[i].enqueueNDRangeKernel(kernel[i], cl::NullRange, globalws, localws);
        }

        for (int i = 0; i < numDevices; i++){
            // Read the modulus back to the host
            float* modulus = new float[imageSize/4];
            commandQueues[i].enqueueReadBuffer(modulusBuffer[i], CL_TRUE, 0, imageSize/4*sizeof(float), modulus);

            // Do something with the modulus;
        }

score 3 · Accepted Answer

您的主要问题是您正在使用阻塞呼叫。如果您以这种方式操作它们，那么您拥有多少设备并不重要。由于您正在执行操作并等待它完成，因此根本没有并行化（或很少）。你现在正在这样做：

Wr:-Copy1--Copy2--------------------
G1:---------------RUN1--------------
G2:---------------RUN2--------------
Re:-------------------Read1--Read2--

你应该改变你的代码至少这样做：

Wr:-Copy1-Copy2-----------
G1:------RUN1-------------
G2:------------RUN2-------
Re:----------Read1-Read2--

使用此代码：

cl::NDRange globalws(imageSize);
cl::NDRange localws;

for (int i = 0; i < numDevices; i++){
        // Set kernel arguments //YOU SHOULD DO THIS AT INIT STAGE, IT IS SLOW TO DO IT IN A LOOP
        kernel[i].setArg(0, inputDataBuffer[i]);

        kernel[i].setArg(1, modulusBuffer[i]);
        kernel[i].setArg(2, imagewidth);

        // Copy the input data to the device
        commandQueues[i].enqueueWriteBuffer(inputDataBuffer[i], CL_FALSE, 0, imageSize*sizeof(float), wt[i].data);
    }

    for (int i = 0; i < numDevices; i++){
        // Run kernel
        commandQueues[i].enqueueNDRangeKernel(kernel[i], cl::NullRange, globalws, localws);
    }

    float* modulus[numDevices];
    for (int i = 0; i < numDevices; i++){
        // Read the modulus back to the host
        modulus[i] = new float[imageSize/4];
        commandQueues[i].enqueueReadBuffer(modulusBuffer[i], CL_FALSE, 0, imageSize/4*sizeof(float), modulus[i]);
    }

    clFinish();

        // Do something with the modulus;

关于具有多个上下文的评论，取决于您是否要与两个 GPU 通信。只要 GPU 只使用它们的内存，就不会有复制开销。但是，如果您不断设置/取消设置内核参数，则会触发复制到其他 GPU。所以，要小心。

GPU 之间不通信的更安全方法是不同的上下文。

我怀疑您的主要问题是内存副本而不是内核执行，如果您隐藏内存延迟，1 GPU 很可能会满足您的需求：

Wr:-Copy1-Copy2-Copy3----------
G1:------RUN1--RUN2--RUN3------
Re:----------Read1-Read2-Read3-

opencl - OpenCL MultiGPU 比单 GPU 慢

1 回答 1

Related

Reference