c++ - 自动矢量化 GCC

Question

我试图让 GCC 4.7 自动矢量化我的代码的某些部分以提高速度，但是，这样做似乎很困难。

这里有一些我想矢量化的代码：

void VideoLine::WriteOut(unsigned short * __restrict__  start_of_line, const int  number_of_sub_pixels_to_write)
{
  unsigned short * __restrict__ write_pointer = (unsigned short *)__builtin_assume_aligned (start_of_line, 16);
  unsigned short * __restrict__ line = (unsigned short *)__builtin_assume_aligned (_line, 16);
  for (int i = 0; i < number_of_sub_pixels_to_write; i++)
  {
    write_pointer[i] = line[i];
  }
}

我正在使用以下 GCC 开关：

-std=c++0x \
-o3 \
-msse \
-msse2 \
-msse3 \
-msse4.1 \
-msse4.2 \
-ftree-vectorizer-verbose=5\
-funsafe-loop-optimizations\
-march=corei7-avx \
-mavx \
-fdump-tree-vect-details \
-fdump-tree-optimized \

我知道有些人会覆盖其他人。

我根本没有从矢量化器得到任何输出，但是，在查看 .optomized 文件时，我可以看到它没有使用矢量化。谁能指出我正确的方法来使其矢量化？

编辑：原来问题是使用-o3而不是-O3。

score 0 · Accepted Answer

试着保证，这number_of_sub_pixels_to_write是 4 的倍数，就像在这里所做的那样：http: //infocenter.arm.com/help/index.jsp?topic=/com.arm.doc.dht0002a/ ch01s04s03。 html

score 0 · Accepted Answer

编译器可以自由地做它想做的事。因此，如果您真的想使用 SIMD 功能（而不依赖于编译器），您应该使用这些功能（请参阅手册）。

c++ - 自动矢量化 GCC

2 回答 2

Related

Reference