1

我正在开发一个对视频帧数据执行一些处理的应用程序。为了加速它,我使用了 2 个图形卡并使用 OpenCL 处理数据。我的想法是将一帧发送到第一张卡,另一帧发送到第二张卡。这些设备使用相同的上下文,但不同的命令队列、内核和内存对象。

但是,在我看来,计算不是并行执行的,因为 2 张卡所需的时间几乎与仅一张显卡所需的时间相同。

有没有人有一个很好的例子,可以同时在独立的数据片段上使用多个设备?

提前致谢。

编辑:

这是切换到 2 个单独的上下文后的结果代码。但是,2 个显卡的执行时间仍然与 1 个显卡相同。

    cl::NDRange globalws(imageSize);
    cl::NDRange localws;

    for (int i = 0; i < numDevices; i++){
            // Copy the input data to the device
            commandQueues[i].enqueueWriteBuffer(inputDataBuffer[i], CL_TRUE, 0, imageSize*sizeof(float), wt[i].data);

            // Set kernel arguments
            kernel[i].setArg(0, inputDataBuffer[i]);

            kernel[i].setArg(1, modulusBuffer[i]);
            kernel[i].setArg(2, imagewidth);
        }

        for (int i = 0; i < numDevices; i++){
            // Run kernel
            commandQueues[i].enqueueNDRangeKernel(kernel[i], cl::NullRange, globalws, localws);
        }

        for (int i = 0; i < numDevices; i++){
            // Read the modulus back to the host
            float* modulus = new float[imageSize/4];
            commandQueues[i].enqueueReadBuffer(modulusBuffer[i], CL_TRUE, 0, imageSize/4*sizeof(float), modulus);

            // Do something with the modulus;
        }
4

1 回答 1

3

您的主要问题是您正在使用阻塞呼叫。如果您以这种方式操作它们,那么您拥有多少设备并不重要。由于您正在执行操作并等待它完成,因此根本没有并行化(或很少)。你现在正在这样做:

Wr:-Copy1--Copy2--------------------
G1:---------------RUN1--------------
G2:---------------RUN2--------------
Re:-------------------Read1--Read2--

你应该改变你的代码至少这样做:

Wr:-Copy1-Copy2-----------
G1:------RUN1-------------
G2:------------RUN2-------
Re:----------Read1-Read2--

使用此代码:

cl::NDRange globalws(imageSize);
cl::NDRange localws;

for (int i = 0; i < numDevices; i++){
        // Set kernel arguments //YOU SHOULD DO THIS AT INIT STAGE, IT IS SLOW TO DO IT IN A LOOP
        kernel[i].setArg(0, inputDataBuffer[i]);

        kernel[i].setArg(1, modulusBuffer[i]);
        kernel[i].setArg(2, imagewidth);

        // Copy the input data to the device
        commandQueues[i].enqueueWriteBuffer(inputDataBuffer[i], CL_FALSE, 0, imageSize*sizeof(float), wt[i].data);
    }

    for (int i = 0; i < numDevices; i++){
        // Run kernel
        commandQueues[i].enqueueNDRangeKernel(kernel[i], cl::NullRange, globalws, localws);
    }

    float* modulus[numDevices];
    for (int i = 0; i < numDevices; i++){
        // Read the modulus back to the host
        modulus[i] = new float[imageSize/4];
        commandQueues[i].enqueueReadBuffer(modulusBuffer[i], CL_FALSE, 0, imageSize/4*sizeof(float), modulus[i]);
    }

    clFinish();

        // Do something with the modulus;

关于具有多个上下文的评论,取决于您是否要与两个 GPU 通信。只要 GPU 只使用它们的内存,就不会有复制开销。但是,如果您不断设置/取消设置内核参数,则会触发复制到其他 GPU。所以,要小心。

GPU 之间不通信的更安全方法是不同的上下文。


我怀疑您的主要问题是内存副本而不是内核执行,如果您隐藏内存延迟,1 GPU 很可能会满足您的需求:

Wr:-Copy1-Copy2-Copy3----------
G1:------RUN1--RUN2--RUN3------
Re:----------Read1-Read2-Read3-
于 2014-06-03T10:23:32.740 回答