cuda - 从设备内核访问尖点变量元素

Question

我在从设备/全局内核访问和分配 cusp array1d 类型的变量时遇到问题。附加代码给出错误

alay.cu(8): warning: address of a host variable "p1" cannot be directly taken in a device function

alay.cu(8): error: calling a __host__ function("thrust::detail::vector_base<float, thrust::device_malloc_allocator<float> > ::operator []") from a __global__ function("func") is not allowed

下面的代码

#include <cusp/blas.h>
cusp::array1d<float, cusp::device_memory> p1(10,3);
__global__ void func()
{
p1[blockIdx.x]=p1[blockIdx.x]+blockIdx.x*5;
}
int main()
{
func<<<10,1>>>();
return 0;
}

score 1 · Accepted Answer

CUSP 矩阵和数组（以及构建它们的 Thrust 容器）仅供主机使用。您不能直接在 GPU 代码中使用它们。

填充 CUSP 稀疏矩阵的规范方法是在主机内存中构造它并使用复制构造函数将其复制到设备内存，因此您的简单示例变为：

cusp::array1d<float, cusp::host_memory> p1(10);
for(int i=0; i<10; i++) p1[i] = 4.f;
cusp::array1d<float, cusp::device_memory> p2(10) = p1; // data now on device

如果您想在设备代码中操作稀疏矩阵，则需要有一个专门针对您感兴趣的格式的内核，并将指针传递给每个设备数组，其中包含矩阵数据作为该内核的参数。CUSP 发行版中包含的所有稀疏类型都有很好的 Doxygen 源注释。

您的编辑仍然没有显示任何在没有内核的情况下无法在主机上完成的内容，即：

cusp::array1d<float, cusp::host_memory> p1(10, 3.f);
for(int i=0; i<10; i++) p1[i] += (i * 5.f);
cusp::array1d<float, cusp::device_memory> p2(10) = p1; // data now on device

cuda - 从设备内核访问尖点变量元素

1 回答 1

Related

Reference