来自 Nvidia 发行说明:
The nvcc compiler switch, --fmad (short name: -fmad), to control the contraction of
floating-point multiplies and add/subtracts into floating-point multiply-add
operations (FMAD, FFMA, or DFMA) has been added:
--fmad=true and --fmad=false enables and disables the contraction respectively.
This switch is supported only when the --gpu-architecture option is set with
compute_20, sm_20, or higher. For other architecture classes, the contraction is
always enabled.
The --use_fast_math option implies --fmad=true, and enables the contraction.
我有两个内核 - 一个是纯粹的计算绑定,有很多乘法,而另一个是内存绑定。当我这样做时,我注意到我的计算密集型内核的性能持续提高(大约 5%)-fmad=false
......当我为我的内存绑定内核关闭它时,性能下降的百分比大致相同。因此,FMA 对我的内存绑定内核工作得更好,但是我的计算绑定内核可以通过关闭它来压缩一点性能。可能是什么原因?我的设备是 M2090,我使用的是 CUDA 4.2。
完整的编译选项:(
-arch,sm_20,-ftz=true,-prec-div=false,-prec-sqrt=false,-use_fast_math,-fmad=false
或者我只是删除fmad=false
,因为这是默认设置。