1

我整天都在苦苦挣扎,试图让一个基本的 CUFFT 示例正常工作。但是我遇到了一个我无法识别的小问题。基本上我有一个带有 x 和 y 坐标的线性二维数组 vx 。然后我只计算一个向前然后向后的 CUFFT(就地),就这么简单。然后我复制回数组 vx,通过 NX*NY 对其进行标准化,然后显示。

#define NX 32
#define NY 32
#define LX (2*M_PI)
#define LY (2*M_PI)
float *x = new float[NX*NY];
float *y = new float[NX*NY];
float *vx = new float[NX*NY];
for(int j = 0; j < NY; j++){
    for(int i = 0; i < NX; i++){
        x[j*NX + i] = i * LX/NX;
        y[j*NX + i] = j * LY/NY;
        vx[j*NX + i] = cos(x[j*NX + i]);
    }
}
float *d_vx;
CUDA_CHECK(cudaMalloc(&d_vx, NX*NY*sizeof(float)));
CUDA_CHECK(cudaMemcpy(d_vx, vx, NX*NY*sizeof(float), cudaMemcpyHostToDevice));
cufftHandle planr2c;
cufftHandle planc2r;
CUFFT_CHECK(cufftPlan2d(&planr2c, NY, NX, CUFFT_R2C));
CUFFT_CHECK(cufftPlan2d(&planc2r, NY, NX, CUFFT_C2R));
CUFFT_CHECK(cufftSetCompatibilityMode(planr2c, CUFFT_COMPATIBILITY_NATIVE));
CUFFT_CHECK(cufftSetCompatibilityMode(planc2r, CUFFT_COMPATIBILITY_NATIVE));
CUFFT_CHECK(cufftExecR2C(planr2c, (cufftReal *)d_vx, (cufftComplex *)d_vx));
CUFFT_CHECK(cufftExecC2R(planc2r, (cufftComplex *)d_vx, (cufftReal *)d_vx));
CUDA_CHECK(cudaMemcpy(vx, d_vx, NX*NY*sizeof(cufftReal), cudaMemcpyDeviceToHost));
for (int j = 0; j < NY; j++){
    for (int i = 0; i < NX; i++){
        printf("%.3f ", vx[j*NX + i]/(NX*NY));
    }
    printf("\n");
}

当 vx 被定义为 cos(x) 或 sin(x) 时,它可以正常工作,但是当使用 sin(y) 或 cos(y) 时,它会返回正确的函数(sin 或 cos),但幅度只有一半(即也就是说,在 0.5 和 -0.5 之间而不是 1 和 -1) 之间振荡!请注意,使用 sin(2*y) 或 cos(2*y)(或 sin(4*y)、cos(4*y)、...)可以正常工作。任何想法?

4

1 回答 1

4

这里的问题是,就地实数到复数变换的输入和输出是一种复杂类型,其大小与输入实数数据不同(它是输入实数的两倍)。您没有分配足够的内存来保存实数到复数转换的中间复数结果。从文档中引用:

cufftExecR2C() (cufftExecD2Z()) 执行单精度(双精度)实数到复数、隐式正向 CUFFT 变换计划。CUFFT 使用 idata 参数指向的 GPU 内存作为输入数据。此函数将非冗余傅立叶系数存储在 odata 数组中。指向 idata 和 odata 的指针都需要与单精度转换中的 cufftComplex 数据类型和双精度转换中的 cufftDoubleComplex 数据类型对齐。

解决方案是分配第二个设备缓冲区来保存中间结果,或者扩大就地分配,使其足够大以保存复杂数据。因此核心转换代码更改为:

float *d_vx;
CUDA_CHECK(cudaMalloc(&d_vx, NX*NY*sizeof(cufftComplex)));
CUDA_CHECK(cudaMemcpy(d_vx, vx, NX*NY*sizeof(cufftComplex), cudaMemcpyHostToDevice));
cufftHandle planr2c;
cufftHandle planc2r;
CUFFT_CHECK(cufftPlan2d(&planr2c, NY, NX, CUFFT_R2C));
CUFFT_CHECK(cufftPlan2d(&planc2r, NY, NX, CUFFT_C2R));
CUFFT_CHECK(cufftSetCompatibilityMode(planr2c, CUFFT_COMPATIBILITY_NATIVE));
CUFFT_CHECK(cufftSetCompatibilityMode(planc2r, CUFFT_COMPATIBILITY_NATIVE));
CUFFT_CHECK(cufftExecR2C(planr2c, (cufftReal *)d_vx, d_vx));
CUFFT_CHECK(cufftExecC2R(planc2r, d_vx, (cufftReal *)d_vx));
CUDA_CHECK(cudaMemcpy(vx, d_vx, NX*NY*sizeof(cufftComplex), cudaMemcpyDeviceToHost));

[免责声明:用浏览器编写,从未编译或测试,使用风险自负]

请注意,您需要调整主机代码以匹配输入和数据的大小和类型。

作为最后的评论,添加额外的 8 或 10 行代码来将您发布的内容变成一个可编译的、可运行的示例,以便有人试图帮助您使用,这会很难吗?

于 2013-10-06T10:55:25.130 回答