我遇到了一个奇怪的问题..我编写了一个在仿真中正确执行的 CUDA 代码,所有结果都显示出来了..但是,在硬件“G210”上执行时..结果内存中的结果始终为 0
我将两个向量传递给内核,一个带有随机变量,另一个初始化为零,代码将第一个向量复制到共享内存,进行一些交换和其他操作,然后将结果写回第二个向量(带有最初的 0)
我使用双精度,使用 -arch sm13 标志,所有内存分配也使用 sizeof(double) ..
我检查了内核是否被调用,它确实..所以这里没有问题.. cudaMemCpy 没有问题..
可能是什么问题.. :(为什么它可以在仿真中工作而不是在硬件上
我很困惑..有什么想法吗?