c - 如何分配 16byte 内存对齐数据

Question

我正在尝试在一段代码上实现 SSE 矢量化，我需要我的一维数组与 16 字节内存对齐。但是，我尝试了几种方法来分配 16 字节内存对齐的数据，但它最终是 4 字节内存对齐的。

我必须使用英特尔 icc 编译器。这是我正在测试的示例代码：

  #include <stdio.h>
  #include <stdlib.h>

  void error(char *str)
  {
   printf("Error:%s\n",str);
   exit(-1);
  }

  int main()
  {
   int i;
   //float *A=NULL;
   float *A = (float*) memalign(16,20*sizeof(float));

   //align
   // if (posix_memalign((void **)&A, 16, 20*sizeof(void*)) != 0)
   //   error("Cannot align");

    for(i = 0; i < 20; i++)
       printf("&A[%d] = %p\n",i,&A[i]);

        free(A);

         return 0;
   }

这是我得到的输出：

 &A[0] = 0x11fe010
 &A[1] = 0x11fe014
 &A[2] = 0x11fe018
 &A[3] = 0x11fe01c
 &A[4] = 0x11fe020
 &A[5] = 0x11fe024
 &A[6] = 0x11fe028
 &A[7] = 0x11fe02c
 &A[8] = 0x11fe030
 &A[9] = 0x11fe034
 &A[10] = 0x11fe038
 &A[11] = 0x11fe03c
 &A[12] = 0x11fe040
 &A[13] = 0x11fe044
 &A[14] = 0x11fe048
 &A[15] = 0x11fe04c
 &A[16] = 0x11fe050
 &A[17] = 0x11fe054
 &A[18] = 0x11fe058
 &A[19] = 0x11fe05c

每次都是 4 字节对齐的，我用过 memalign，posix memalign。由于我在 Linux 上工作，我不能使用 _mm_malloc 也不能使用 _aligned_malloc。当我尝试使用 _aligned_attribute 时出现内存损坏错误（我认为这仅适用于 gcc）。

任何人都可以帮助我在 linux 平台上为 icc 准确生成 16 字节内存对齐数据。

score 15 · Accepted Answer

您分配的内存是 16 字节对齐的。请参阅：
&A[0] = 0x11fe010
但是在的数组中float，每个元素是 4 个字节，因此第二个元素是 4 字节对齐的。

aligned您可以使用具有以下属性的结构数组，每个结构都包含一个浮点数：

struct x {
    float y;
} __attribute__((aligned(16)));
struct x *A = memalign(...);

score 7 · Accepted Answer

函数返回的地址memalign是0x11fe010，是的倍数0x10。因此，该功能正在做正确的事情。这也意味着您的数组在 16 字节边界上正确对齐。您稍后要做的是打印float数组中每个下一个类型元素的地址。由于float在您的情况下大小正好是 4 个字节，因此每个下一个地址都将等于前一个 +4。例如，0x11fe010 + 0x4 = 0x11FE014. 当然，地址0x11FE014不是的倍数0x10。如果您要在 16 字节边界上对齐所有浮点数，那么您将不得不浪费16 / 4 - 1每个元素的字节数。仔细检查您正在使用的内在函数的要求。

score 1 · Accepted Answer

AFAIK，两者memalign都posix_memalign在做他们的工作。

&A[0] = 0x11fe010

这与 16 字节对齐。

&A[1] = 0x11fe014

当您这样做时，&A[1]您是在告诉编译器向float指针添加一个位置。这将不可避免地导致：

&A[0] + sizeof( float ) = 0x11fe010 + 4 = 0x11fe014

如果您打算将向量中的每个元素对齐到 16 字节，则应考虑声明一个 16 字节宽的结构数组。

struct float_16byte
{
    float data;
    float padding[ 3 ];
}
    A[ ELEMENT_COUNT ];

然后您必须为ELEMENT_COUNT（在您的示例中为 20 个）变量分配内存：

struct float_16byte *A = ( struct float_16byte * )memalign( 16, ELEMENT_COUNT * sizeof( struct float_16byte ) );

score 0 · Accepted Answer

我在维基百科上找到了这段代码：

Example: get a 12bit aligned 4KBytes buffer with malloc()

// unaligned pointer to large area
void *up=malloc((1<<13)-1);
// well aligned pointer to 4KBytes
void *ap=aligntonext(up,12);

where aligntonext() is meant as: 
move p to the right until next well aligned address if
not correct already. A possible implementation is

// PSEUDOCODE assumes uint32_t p,bits; for readability
// --- not typesafe, not side-effect safe
#define alignto(p,bits) (p>>bits<<bits)
#define aligntonext(p,bits) alignto((p+(1<<bits)-1),bits)

score 0 · Accepted Answer

我个人认为您的代码是正确的，并且适用于英特尔 SSE 代码。当您将数据加载到 XMM 寄存器中时，我相信处理器只能从主存储器加载 4 个连续的浮点数据，第一个以 16 字节对齐。

总之，我相信你所做的正是你想要的。

score 0 · Accepted Answer

你也可以在 VS 中使用它。

__declspec(align(16)) struct x {
    long long a;
    long long b;
    char c;
};

而不是这个

struct x {
    float y;
} __attribute__((aligned(16)));

c - 如何分配 16byte 内存对齐数据

6 回答 6

Related

Reference