numpy - Pycuda 搞砸了 numpy 矩阵转置

Question

为什么转置矩阵在转换为 a 时看起来不同pycuda.gpuarray？

你能重现这个吗？什么可能导致这种情况？我使用了错误的方法吗？

示例代码

from pycuda import gpuarray
import pycuda.autoinit
import numpy

data = numpy.random.randn(2,4).astype(numpy.float32)
data_gpu = gpuarray.to_gpu(data.T)
print "data\n",data
print "data_gpu.get()\n",data_gpu.get()
print "data.T\n",data.T

输出

data
[[ 0.70442784  0.08845157 -0.84840715 -1.81618035]
 [ 0.55292499  0.54911566  0.54672164  0.05098847]]
data_gpu.get()
[[ 0.70442784  0.08845157]
 [-0.84840715 -1.81618035]
 [ 0.55292499  0.54911566]
 [ 0.54672164  0.05098847]]
data.T
[[ 0.70442784  0.55292499]
 [ 0.08845157  0.54911566]
 [-0.84840715  0.54672164]
 [-1.81618035  0.05098847]]

score 6 · Accepted Answer

在 numpy 中，data.T不对底层的一维数组做任何事情。它只是操纵步幅来获得转置。这使它成为一个恒定时间和恒定内存操作。

这似乎pycuda.to_gpu()不尊重步幅，只是复制底层的一维数组。这将产生您正在观察的确切行为。

在我看来，您的代码没有任何问题。相反，我会认为这是pycuda.

我用谷歌搜索，找到了一个详细讨论这个问题的线程。

作为一种解决方法，您可以尝试传递numpy.ascontiguousarray(data.T)给gpuarray.to_gpu(). 当然，这将在主机 RAM 中创建数据的第二个副本。

score 6 · Accepted Answer

根本原因是numpy转置只创建一个视图，对底层数组存储没有影响，而且是PyCUDA在复制到设备内存时直接访问的存储。解决方案是在进行转置时使用该copy方法，该方法将在主机内存中按转置顺序创建一个包含数据的数组，然后将其复制到设备：

data_gpu = gpuarray.to_gpu(data.T.copy())

numpy - Pycuda 搞砸了 numpy 矩阵转置

2 回答 2

Related

Reference