与具有 WDDM 的 Geforce(同代)相比,具有 TCC 模式的特斯拉(费米或开普勒)?
我编写的程序在内核开销方面存在一些非常严重的问题,因为它必须反复启动内核,开销如此之大,我必须将许多内核合并在一起并交换内存空间以减少内核启动,但是它只能工作到目前为止谢谢到 GPU 内存存储的庞大规模。
我听说 TCC 模式可以减少开销,但它可以将开销性能提升到 CPU 级别吗?
由于我阅读了一些基准,至少对于 Geforce 280 GTX,内核调用开销比 CPU 的函数调用开销长数千倍,并且对于需要大量重复迭代的方法,它在这里产生了巨大的性能差异。