我想计算图形硬件的理论峰值性能。好吧,实际上我想了解计算。
AMD Radeon HD 6670 示例:AMD 加速并行处理编程指南 ( http://developer.amd.com/download/AMD_Accelerated_Parallel_Processing_OpenCL_Programming_Guide.pdf ) 在第 6-42 页中间告诉我获取流核心数 ( 96),将其乘以每个 Stream Core 的每个周期的操作数(让我们采用单精度的 ADD,即 5)并将其乘以内核时钟(800 MHz)。结果是:
96 * 5 FLOPS * 800MHz = 384,000 MFLOPS = 384 GFLOPS
同一份文档在第 D-4 页告诉我,这个特定设备的峰值吞吐量为 768 GFLOPS,是我刚刚计算的两倍。维基百科和 AMD 主页声明相同。
所以我的问题是:我在哪里错过了两个因素?