我对 julia 语言感到非常惊讶,我已经为我当前的项目实现了许多机器学习算法。尽管 julia 0.2 设法从我的 2011 MBA 中获得了一些出色的结果,在类似的 linux 硬件上优于所有其他解决方案(我想是由于 vecLib blas),但我当然想要更多。我正在购买 radeon 5870,并希望将我的矩阵操作推到那里。我基本上只使用简单的 BLAS 操作,例如 matmul、additios 和 transpositions。我使用 julia 的紧凑语法 A' * B + C 并且当然想保留它。
有什么方法(或未决的里程碑)可以让这些基本操作在 GPU 上执行吗?我喜欢 2500x2500 的单精度矩阵,所以我希望能显着加快速度。