所以我试图做一个看起来像的数组操作
for (int i=0;i++i<32)
{
output[offset+i] += input[i];
}
whereoutput
和input
是float
数组(由于 16 字节对齐malloc
)。但是,我不能保证offset%4=0
。我想知道如何解决这些对齐问题。
我虽然像
while (offset+c %4 != 0)
{
c++;
output[offset+c] += input[c];
}
后面跟着一个对齐的循环——显然这是行不通的,因为我们现在需要对input
.
有没有办法矢量化我的原始循环?