gpu - 是否有使用矩阵矩阵乘法的梯度下降实现？

翻译自：https://stackoverflow.com/questions/43411013 2017-04-14T11:53:21.820

354 次

2

我在Octave for ML中使用以下梯度下降实现。

我首先尝试增加 CPU 内核的数量并使用 OpenBlas 运行 Octave 多线程，但仍然没有得到我想要的结果，所以我尝试使用 Nvidia 的工具包和他们的 Tesla K80 GPU

我正在按照本文中的说明使用 nvblas 中的 drop 加载 Octave：

GNU Octave 的嵌入式加速

当我检查 nvidia-smi 时，我发现 GPU 处于空闲状态，尽管我使用矩阵矩阵乘法进行的测试产生了 ~9 teraflops

后来我了解到，根据 nvblas 文档，不支持用于上述实现的矩阵向量乘法

所以我的问题是有一个梯度下降实现，它使用矩阵矩阵乘法或等效的东西可以代替我拥有的梯度下降实现？

0 回答 0