3

我对 julia 语言感到非常惊讶,我已经为我当前的项目实现了许多机器学习算法。尽管 julia 0.2 设法从我的 2011 MBA 中获得了一些出色的结果,在类似的 linux 硬件上优于所有其他解决方案(我想是由于 vecLib blas),但我当然想要更多。我正在购买 radeon 5870,并希望将我的矩阵操作推到那里。我基本上只使用简单的 BLAS 操作,例如 matmul、additios 和 transpositions。我使用 julia 的紧凑语法 A' * B + C 并且当然想保留它。

有什么方法(或未决的里程碑)可以让这些基本操作在 GPU 上执行吗?我喜欢 2500x2500 的单精度矩阵,所以我希望能显着加快速度。

4

1 回答 1

4

我不认为此时计划将 GPU 集成到 Julia 的核心中。关键问题之一是在将数据移入和移出 GPU 时存在大量开销,因此无法直接替代 BLAS 操作。

我预计这方面的大部分进展实际上将来自包生态系统,特别是JuliaGPU组织下的包。我看到那里有一个 CLBLAS 包。

于 2014-07-15T19:30:18.560 回答