所以我有一个我正在做的项目,它使用 OpenCV 来检测移动物体的运动。我正在尝试加快检测速度,并有一个我想使用 CUDA 加速的嵌套 for 循环。我在 Visual Basic 中设置了 CUDA 集成。这是我的 .cpp 文件中的嵌套 for 循环。
for (int i=0; i<NumberOfFeatures; i++)
{
// Compute integral image.
cvIntegral(mFeatureImgs[i], mFirstOrderIIs[i]);
for (int j=0; j<NumberOfFeatures; j++)
{
// Compute product feature image.
cvMul(mFeatureImgs[i], mFeatureImgs[j], mWorker);
// Compute integral image.
cvIntegral(mWorker, mSecondOrderIIs[i][j]);
}
}
我对 CUDA 比较陌生,所以我的问题是,有人可以向我展示一个示例,说明我将如何使用 CUDA 使这个嵌套的 for 循环运行得更快吗?