不幸的是,我不能在这里分享代码(专有),但我的问题是:我有一个 HLSL(它是 Groestl 哈希函数的 gpu 实现)文件,可以在 SM4 和 SM5 中通过 FXC 进行编译。在我的 GPU(AMD Radeon 7800 HD 系列)上,使用 SM4 hcs 可获得 3.6 MH/s,使用 SM5 hcs 可获得 6.6 MH/s。
相同的代码,SM4 与 SM5 相比,性能显着提高。在编译 SM5 时是否存在已知的 fxc 是“愚蠢”的情况/是否有已知的方法可以诱骗它变得不愚蠢?
...或者也许我在吠叫错误的树,也许这可能是我的 GPU 独有的东西?我将如何检查这个?