我在Octave for ML中使用以下梯度下降实现。
我首先尝试增加 CPU 内核的数量并使用 OpenBlas 运行 Octave 多线程,但仍然没有得到我想要的结果,所以我尝试使用 Nvidia 的工具包和他们的 Tesla K80 GPU
我正在按照本文中的说明使用 nvblas 中的 drop 加载 Octave:
当我检查 nvidia-smi 时,我发现 GPU 处于空闲状态,尽管我使用矩阵矩阵乘法进行的测试产生了 ~9 teraflops
后来我了解到,根据 nvblas 文档,不支持用于上述实现的矩阵向量乘法
所以我的问题是有一个梯度下降实现,它使用矩阵矩阵乘法或等效的东西可以代替我拥有的梯度下降实现?