我想在 CUDA 中声明全局设备变量的对齐方式。具体来说,我有一个字符串声明,就像
__device__ char str1 = "some pre-defined string";
在普通 gcc 中一样,我可以向编译器请求对齐
__device__ char str1 __attribute__ ((aligned (4))) = "some pre-defined string";
但是,当我在 nvcc 上尝试此操作时,编译器会忽略这些请求。我想这样做的原因是将这些字符串复制到我的内核中的缓冲区中,并且一次复制单词比一次复制字节要快得多,尽管它们需要对齐 src 字符串。谁能告诉我如何从 nvcc 编译器请求对齐?