我的教授发现了这个使用 SSE 和 OpenMP 进行 3D 线性可分内核卷积的有趣实验,并将任务交给我对我们系统的统计数据进行基准测试。作者声称串行方法的速度提高了 18 倍!可能并非总是如此,但我们预计在双核 Intel 上运行它至少会加速 2-4 倍。
唉,我们完全找不到加速。无论有没有 OpenMP,串行代码的性能总是更好。
我正在使用 Linux,并观察到某种趋势......当系统上没有其他进程正在运行时,一段时间后 loadavg 开始增加,并且 %CPU 利用率下降。
我意外遇到的另一个可能的误报......我启动了程序,然后立即暂停了它。然后我用 bg 在后台运行它,发现加速比超过 2。这种情况一直都在发生!
任何建议都会很棒。
谢谢,萨扬