我正在考虑使用某种形式的 CUDA 加速我的 python 代码,这都是矩阵数学。目前我的代码使用的是 Python 和 Numpy,因此使用 PyCUDA 或 CudaMat 之类的东西重写它似乎不难。
然而,在我第一次尝试使用 CudaMat 时,我意识到我必须重新排列很多方程才能将所有操作都保留在 GPU 上。这包括创建许多临时变量,以便我可以存储操作的结果。
我理解为什么这是必要的,但是它使曾经容易阅读的方程式变得有些混乱,难以检查其正确性。此外,我希望以后能够轻松地修改方程式,这不是转换后的形式。
Theano 包通过首先创建操作的符号表示,然后将它们编译到 CUDA 来设法做到这一点。然而,在尝试了 Theano 一段时间后,我对一切都是那么不透明感到沮丧。例如,仅获取 myvar.shape[0] 的实际值就变得很困难,因为直到很久以后才会对树进行评估。我也更喜欢更少的框架,在该框架中我的代码非常符合一个库,该库在 Numpy 的位置上不可见。
因此,我真正想要的是更简单的东西。我不想要自动区分(如果我需要,还有其他包,如 OpenOpt 可以做到这一点),或者树的优化,而只是从标准 Numpy 表示法转换为 CudaMat/PyCUDA/somethingCUDA。事实上,我希望能够在没有任何 CUDA 代码进行测试的情况下让它评估为 Numpy。
我目前正在考虑自己写这篇文章,但在考虑这样的冒险之前,我想看看是否有其他人知道类似的项目或一个好的起点。我知道的唯一可能与此接近的其他项目是 SymPy,但我不知道适应这个目的有多容易。
我目前的想法是创建一个看起来像 Numpy.array 类的数组类。它的唯一功能是构建一棵树。在任何时候,该符号数组类都可以转换为 Numpy 数组类并进行评估(也会有一对一的奇偶校验)。或者,可以遍历数组类并生成 CudaMat 命令。如果需要优化,可以在该阶段完成(例如重新排序操作、创建临时变量等),而不会妨碍检查正在发生的事情。
任何想法/评论/等。对此将不胜感激!
更新
一个用例可能看起来像(其中 sym 是理论模块),我们可能正在做一些事情,比如计算梯度:
W = sym.array(np.rand(size=(numVisible, numHidden)))
delta_o = -(x - z)
delta_h = sym.dot(delta_o, W)*h*(1.0-h)
grad_W = sym.dot(X.T, delta_h)
在这种情况下,grad_W
实际上只是一棵包含需要完成的操作的树。如果您想正常评估表达式(即通过 Numpy),您可以执行以下操作:
npGrad_W = grad_W.asNumpy()
它只会执行树所代表的 Numpy 命令。另一方面,如果您想使用 CUDA,您可以:
cudaGrad_W = grad_W.asCUDA()
这会将树转换为可以通过 CUDA 执行的表达式(这可能以几种不同的方式发生)。
这样,它应该是微不足道的:(1) testgrad_W.asNumpy() == grad_W.asCUDA()
和 (2) 将您预先存在的代码转换为使用 CUDA。