我有一个包含数组的结构,我想将内容从 CPU 内存中该结构的实例复制到 GPU 内存中的另一个实例。
我的问题与此类似。这个问题和链接中的问题有两个很大的区别:
- 我没有使用结构数组。我只需要一个。
- 结构的所有实例都是静态分配的。
为了回答我自己的问题,我尝试修改答案中的代码,如下所示:
#include <stdio.h>
#include <stdlib.h>
#define cudaCheckError() { \
cudaError_t err = cudaGetLastError(); \
if(err != cudaSuccess) { \
printf("Cuda error: %s:%d: %s\n", __FILE__, __LINE__, cudaGetErrorString(err)); \
exit(1); \
} \
}
struct Test {
char array[5];
};
__global__ void kernel(Test *dev_test) {
for(int i=0; i < 5; i++) {
printf("Kernel[0][i]: %c \n", dev_test[0].array[i]);
}
}
__device__ Test dev_test; //dev_test is now global, statically allocated, and one instance of the struct
int main(void) {
int size = 5;
Test test; //test is now statically allocated and one instance of the struct
char temp[] = { 'a', 'b', 'c', 'd' , 'e' };
memcpy(test.array, temp, size * sizeof(char));
cudaCheckError();
cudaMemcpy(&dev_test, &test, sizeof(Test), cudaMemcpyHostToDevice);
cudaCheckError();
kernel<<<1, 1>>>(&dev_test);
cudaCheckError();
cudaDeviceSynchronize();
cudaCheckError();
// memory free
return 0;
}
但是这段代码会引发运行时错误:
Cuda error: HelloCUDA.cu:34: invalid argument
有没有办法复制test
进去dev_test
?