我试图通过结合 IPP 和 TBB 来进一步改进我的图像调整算法。我可以完成此任务的两种方法是:
- 使用没有 TBB 的 IPP
- 在 parallel_for 循环中使用 IPP 和 TBB
我的问题是我已经对应用程序进行了编码,并且得到了正确的结果。但令人惊讶的是,当它们组合在一起时,我的计算时间会更大。为避免混乱,我只在此处粘贴部分代码。但如果需要,我可以提供整个代码。对于我只使用 IPP 的第一种情况,代码如下:(算法的基础是从英特尔 TBB 图像调整示例代码中借用的)
ippiResizeSqrPixel_8u_C1R(src, srcSize, srcStep, srcRoi, dst, dstStep, dstRoi,
m_nzoom_x,m_nzoom_y,0, 0, interpolation, pBufferWhole);
parallel_for 循环如下所示:
parallel_for(
blocked_range<size_t>(0,CHUNK),
[=](const blocked_range<size_t> &r){
for (size_t i= r.begin(); i!= r.end(); i++){
ippiResizeSqrPixel_8u_C1R(src+((int)(i*srcWidth*srcHeight)), srcSize,
srcStep, srcRoi, dst+((int)(i*dstWidth*dstHeight)), dstStep, dstRoi,
m_nzoom_x,m_nzoom_y,0, 0, interpolation, pBuffer);
}
}
);
src
并且dst
是指向源图像和目标图像的指针。当使用 TBB 时,图像被划分为多个CHUNKS
部分,parallel_for 循环遍历所有部分,CHUNKS
并使用 IPP 函数独立调整每个 CHUNK 的大小。dstHeight
、srcHeight
、srcRoi
和的值dstRoi
被修改以适应图像的分区,并且src+((int)(i*srcWidth*srcHeight))
和dst+((int)(i*dstWidth*dstHeight))
将指向源和目标图像中每个分区的开始。
显然,IPP 和 TBB 可以以这种方式组合——因为我得到了正确的结果——但让我感到困惑的是,与单独使用 IPP 相比,当它们组合时计算时间会变差。关于可能是什么原因,或者我如何解决这个问题的任何想法?
谢谢!