iphone - iOS 4 使用 4x4 矩阵加速 Cblas

Question

我一直在研究 iOS 4 中提供的 Accelerate 框架。具体来说，我尝试在 C 语言的线性代数库中使用 Cblas 例程。现在我无法使用这些函数来给我在非常基本的例程中获得任何性能提升。具体来说，是 4x4 矩阵乘法的情况。在我无法利用矩阵的仿射或齐次属性的地方，我一直在使用这个例程（删节）：

float *mat4SetMat4Mult(const float *m0, const float *m1, float *target) {
    target[0] = m0[0] * m1[0] + m0[4] * m1[1] + m0[8] * m1[2] + m0[12] * m1[3];
    target[1] = ...etc...
    ...
    target[15] = m0[3] * m1[12] + m0[7] * m1[13] + m0[11] * m1[14] + m0[15] * m1[15];
    return target;
}

Cblas 的等效函数调用是：

cblas_sgemm(CblasColMajor, CblasNoTrans, CblasNoTrans,
   4, 4, 4, 1.f, m0, 4, m1, 4, 0.f, target, 4);

比较两者，通过让它们运行大量填充随机数的预计算矩阵（每个函数每次都获得完全相同的输入），当使用 C 时钟（）函数计时时，Cblas 例程的执行速度大约慢 4 倍.

这对我来说似乎不对，我觉得我在某个地方做错了什么。我是否必须以某种方式启用设备的 NEON 单元和 SIMD 功能？或者我不应该希望用这么小的矩阵获得更好的性能吗？

非常感谢，

巴斯蒂安

score 5 · Accepted Answer

Apple WWDC2010 演示文稿说，即使是 3x3 矩阵运算，Accelerate 仍应提供加速，因此我假设您应该会看到 4x4 略有改进。但是您需要考虑的是，Accelerate 和 NEON 旨在大大加快整数运算，但不一定是浮点运算。您没有提到您的 CPU 处理器，而且 Accelerate 似乎会根据您的 CPU 使用 NEON 或 VFP 进行浮点运算。如果它使用 NEON 指令进行 32 位浮点运算，那么它应该运行得很快，但如果它使用 VFP 进行 32 位浮点运算或 64 位双精度运算，那么它将运行得非常慢（因为 VFP 实际上不是 SIMD）。因此，您应该确保在 Accelerate 中使用 32 位浮点运算，并确保它将使用 NEON 而不是 VFP。

另一个问题是，即使它确实使用了 NEON，也不能保证您的 C 编译器生成的 NEON 代码会比没有 NEON 指令的简单 C 函数生成的代码更快，因为 GCC 等 C 编译器通常会生成糟糕的 SIMD 代码，可能会运行得更慢比标准代码。这就是为什么测试生成代码的速度总是很重要的原因，并且可能手动查看生成的汇编代码以查看您的编译器是否生成了错误代码。

score 4 · Accepted Answer

BLAS 和 LAPACK 库设计用于我认为的“中型到大型矩阵”（从数万到数万）。它们将为较小的矩阵提供正确的结果，但性能不会达到应有的水平。

有几个原因：

为了提供最佳性能，3x3 和 4x4 矩阵运算必须内联，而不是在库中；当要做的工作很少时，进行函数调用的开销太大而无法克服。
要提供最佳性能，需要一组完全不同的接口。矩阵乘法的 BLAS 接口使用变量来指定计算中涉及的矩阵的大小和前导维度，更不用说是否转置矩阵和存储布局。所有这些参数使库功能强大，并且不会损害大型矩阵的性能。但是，当它完成确定您正在执行 4x4 计算时，一个专用于执行 4x4 矩阵运算的函数已经完成。

这对您意味着什么：如果您想提供专用的小矩阵运算，请访问 bugreport.apple.com 并提交请求此功能的错误。

iphone - iOS 4 使用 4x4 矩阵加速 Cblas

2 回答 2

Related

Reference