当我们谈论 GPU 上 Cuda 中的并行程序比 CPU 上类似的顺序程序更快时,顺序程序是否应该由编译器优化器 (gcc -O2) 编译?
我在 GPU 上并行了一个程序。与没有编译器优化器的 CPU 实现相比,它的速度提高了 18 倍。但是当我将选项 -O2 添加到 nvcc 编译器时,加速率降低到 8。
当我们谈论 GPU 上 Cuda 中的并行程序比 CPU 上类似的顺序程序更快时,顺序程序是否应该由编译器优化器 (gcc -O2) 编译?
我在 GPU 上并行了一个程序。与没有编译器优化器的 CPU 实现相比,它的速度提高了 18 倍。但是当我将选项 -O2 添加到 nvcc 编译器时,加速率降低到 8。