只是关于cublas的一般问题。对于单线程,如果没有从 GPU 到 CPU 的内存传输(例如 cublasGetVector),那么 cublas 内核函数(例如 cublasDgemm)会自动与主机同步吗?
cublasDgemm();
//cublasGetVector();
host_functions()
此外,在两个相邻的内核调用之间呢?
cublasDgemm();
cublasDgemm();
并且,不涉及先前内核中使用的全局内存的同步传输呢?
cublasDgemm(...gA...gB...gC);
cublasGetVector(...gD...D...);