您如何从 GPU 获得最大数量的浮点操作(以 flops 为单位)?
例如,在 GK20A GPU(嵌入在 Tegra K1 中)上,它可以达到 852 Mhz 并具有 192 个 cuda 内核(每个周期每个周期只能执行一个基本的 fp 操作 - 如果我正确阅读了规范)并且可以去高达 852 Mhz,我的第一个猜测基本上是:852 * 192 = 163 GFLOPS。
然而,Nvidia 为 Tegra K1 拥有至少380 GFLOPS。我错过了什么?
您如何从 GPU 获得最大数量的浮点操作(以 flops 为单位)?
例如,在 GK20A GPU(嵌入在 Tegra K1 中)上,它可以达到 852 Mhz 并具有 192 个 cuda 内核(每个周期每个周期只能执行一个基本的 fp 操作 - 如果我正确阅读了规范)并且可以去高达 852 Mhz,我的第一个猜测基本上是:852 * 192 = 163 GFLOPS。
然而,Nvidia 为 Tegra K1 拥有至少380 GFLOPS。我错过了什么?