1

我正在尝试在我的矢量类中获得 SSE 功能(到目前为止我已经重写了 3 次。:\)并且我正在执行以下操作:

#ifndef _POINT_FINAL_H_
#define _POINT_FINAL_H_

#include "math.h"

namespace Vector3D
{

#define SSE_VERSION 3

#if SSE_VERSION >= 2

    #include <emmintrin.h>  // SSE2

    #if SSE_VERSION >= 3

        #include <pmmintrin.h>  // SSE3

    #endif

#else

#include <stdlib.h>

#endif

#if SSE_VERSION >= 2

    typedef union { __m128 vector; float numbers[4]; } VectorData;
    //typedef union { __m128 vector; struct { float x, y, z, w; }; } VectorData;

#else

    typedef struct { float x, y, z, w; } VectorData;

#endif

class Point3D
{

public:

    Point3D();
    Point3D(float a_X, float a_Y, float a_Z);
    Point3D(VectorData* a_Data);
    ~Point3D();

    // a lot of not-so-interesting functions

private:

    VectorData* _NewData();

}; // class Point3D

}; // namespace Vector3D

#endif

有用!欢呼!但它比我之前的尝试慢。嘘。

我已经确定我的瓶颈是我用来获取指向结构的指针的 malloc。

VectorData* Point3D::_NewData() 
{ 

#if SSE_VERSION >= 2

    return ((VectorData*) _aligned_malloc(sizeof(VectorData), 16)); 

#else

    return ((VectorData*) malloc(sizeof(VectorData))); 

#endif

}

在类中使用 SSE 的主要问题之一是它必须在内存中对齐才能工作,这意味着重载 new 和 delete 运算符,导致代码如下:

 BadVector* test1 = new BadVector(1, 2, 3);
 BadVector* test2 = new BadVector(4, 5, 6);
 *test1 *= test2;

你不能再使用默认构造函数,你必须new像瘟疫一样避免。

我的新方法基本上是让数据在类外部,这样类就不必对齐。

我的问题是:是否有更好的方法来获取指向结构的(内存对齐)实例的指针,或者我的方法真的很愚蠢并且有更清洁的方法?

4

3 回答 3

2

怎么样:

__declspec( align( 16 ) ) VectorData vd;

?

您还可以创建自己的 operator new 版本,如下所示

void* operator new( size_t size, size_t alignment )
{
     return __aligned_malloc( size, alignment );
}

然后可以按如下方式进行分配

AlignedData* pData = new( 16 ) AlignedData;

在 16 字节边界处对齐。

如果那没有帮助,那么我可能会误解您的要求...

于 2009-09-11T14:38:37.377 回答
1

您可能不应该期望获得一次性向量的改进性能。当您可以将并行处理与一些体积相结合时,即当按顺序处理许多向量时,并行处理最为耀眼。

于 2009-09-11T14:40:51.947 回答
0

我修好了它。:O

这真的很容易。我所要做的就是转身

VectorData* m_Point;

进入

VectorData m_Point;

我的问题消失了,不需要 malloc 或对齐。

但我感谢大家的帮助!:D

于 2009-09-11T15:33:38.963 回答