multithreading - 结合英特尔 IPP 和 TBB

Question

我试图通过结合 IPP 和 TBB 来进一步改进我的图像调整算法。我可以完成此任务的两种方法是：

使用没有 TBB 的 IPP
在 parallel_for 循环中使用 IPP 和 TBB

我的问题是我已经对应用程序进行了编码，并且得到了正确的结果。但令人惊讶的是，当它们组合在一起时，我的计算时间会更大。为避免混乱，我只在此处粘贴部分代码。但如果需要，我可以提供整个代码。对于我只使用 IPP 的第一种情况，代码如下：（算法的基础是从英特尔 TBB 图像调整示例代码中借用的）

ippiResizeSqrPixel_8u_C1R(src, srcSize, srcStep, srcRoi, dst, dstStep, dstRoi, 
m_nzoom_x,m_nzoom_y,0, 0, interpolation, pBufferWhole);

parallel_for 循环如下所示：

parallel_for(
    blocked_range<size_t>(0,CHUNK),
    [=](const blocked_range<size_t> &r){
        for (size_t i= r.begin(); i!= r.end(); i++){
            ippiResizeSqrPixel_8u_C1R(src+((int)(i*srcWidth*srcHeight)), srcSize, 
srcStep, srcRoi, dst+((int)(i*dstWidth*dstHeight)), dstStep, dstRoi, 
m_nzoom_x,m_nzoom_y,0, 0, interpolation, pBuffer);
        }
    }
);

src并且dst是指向源图像和目标图像的指针。当使用 TBB 时，图像被划分为多个CHUNKS部分，parallel_for 循环遍历所有部分，CHUNKS并使用 IPP 函数独立调整每个 CHUNK 的大小。dstHeight、srcHeight、srcRoi和的值dstRoi被修改以适应图像的分区，并且src+((int)(i*srcWidth*srcHeight))和dst+((int)(i*dstWidth*dstHeight))将指向源和目标图像中每个分区的开始。

显然，IPP 和 TBB 可以以这种方式组合——因为我得到了正确的结果——但让我感到困惑的是，与单独使用 IPP 相比，当它们组合时计算时间会变差。关于可能是什么原因，或者我如何解决这个问题的任何想法？

谢谢！

score 0 · Accepted Answer

在您的代码中，每个并行化任务都parallel_for包含多个ippiResizeSqrPixel调用。与只调用一次的串行版本相比，这可能是毫无意义的开销，因为此类函数可能包含准备阶段（例如，设置插值系数表），并且它通常旨在一次处理大内存块以提高运行时效率。（但我不知道 IPP 实际上是如何做的。）

我建议你遵循并行结构：

parallel_for(
  // Range = src (or dst) height of image.
  blocked_range<size_t>(0, height),
  [=](const blocked_range<size_t> &r) {
    // 'r' = vertical range of image to process in this task.
    // You can calculate src/dst region from 'r' here,
    // and call ippiResizeSqrPixel once per task.
    ippiResizeSqrPixel_8u_C1R( ... );
  }
);

score 0 · Accepted Answer

事实证明，一些 IPP 函数自动使用多线程。对于此类功能，使用 TBB 不会获得任何改进。显然ippiResizeSqrPixel_8u_C1R( ... )功能是这些功能之一。当我禁用除一个之外的所有内核时，两个版本的表现都一样好。

multithreading - 结合英特尔 IPP 和 TBB

2 回答 2

Related

Reference