我试图了解如何支持任意大小的矩阵和向量的快速向量化线性代数计算。根据我对 x86 处理器架构的了解,它们包含大小有限的特殊寄存器。这些寄存器允许加载浮点数和跨寄存器广播操作。你如何有效地绕过有限的尺寸?
我正在查看 OpenBLAS 源代码来解决这个问题,但尽管查看了开发文档,但无法弄清楚简单操作的一般流程,例如gemv
.
我试图了解如何支持任意大小的矩阵和向量的快速向量化线性代数计算。根据我对 x86 处理器架构的了解,它们包含大小有限的特殊寄存器。这些寄存器允许加载浮点数和跨寄存器广播操作。你如何有效地绕过有限的尺寸?
我正在查看 OpenBLAS 源代码来解决这个问题,但尽管查看了开发文档,但无法弄清楚简单操作的一般流程,例如gemv
.