我已经实现了一个用于在图像中搜索模式的软件。使用 cvMatchTemplate 执行时间约为 10 毫秒(因为我在 120x160 像素的搜索窗口中采用 40x40 的模式。图像是 640x480,所以我不考虑整个图像)。
我已经使用 gpu::MatchTemplate 实现了相同的算法,并且我期待执行时间的改进。计算分数需要 220 毫秒。
怎么了?
谢谢。
编辑:我测量了图像的加载时间,执行“.upload”功能需要 1 毫秒,因为图像已经未压缩。
不是同一个算法吗?
编辑:我使用 CUDA 和我自己的内核编写了代码:它使用图像上的 cuda 函数执行 FFT,算法的整个执行时间不到 2 毫秒,图像为 1024x1024,模式为 200x200。我使用 thread_sync 来测量 exec。时间。