我想知道是否值得像我对 Vector2 类所做的那样使用 neon/simd 优化我的 Vector3 类的操作。
据我所知,simd 只能同时处理两个或四个浮点数,所以对于我的 Vector3,我们需要这样的东西:
Vector3 Vector3::operator * (const Vector3& v) const
{
#if defined(__ARM_NEON__)
// extra step: allocate a fourth float
const float v4A[4] = {x, y, z, 0};
const float v4B[4] = {v.x, v.y, v.z, 0};
float32x4_t r = vmul_f32(*(float32x4_t*)v4A, *(float32x4_t*)v4B);
return *(Vector3*)&r;
#else
return Vector3(x * v.x, y * v.y, z * v.z);
#endif
}
这安全吗?在大多数情况下,这个额外的步骤是否仍然比非 simd 代码更快(例如 arm64)?