1

假设我有一个非常小且奇数的元素内核 (3x3)(存储在一维数组中),我想使用 SSE 将该内核加载到向量中并进行并行处理。

浮动*A;

如果我这样做:

_mm128 a1 = (A + 0)

_mm128 a2 = (A + 4)

_mm128 a3 = (A + 8)

那么它就会越界了。此外,并行性需要 4 个向量才能最好地优化结果。

为了使用 SSE,将小(奇元素)内核加载到向量中的最佳方法是什么?

谢谢你。

4

0 回答 0