假设我有一个非常小且奇数的元素内核 (3x3)(存储在一维数组中),我想使用 SSE 将该内核加载到向量中并进行并行处理。
浮动*A;
如果我这样做:
_mm128 a1 = (A + 0)
_mm128 a2 = (A + 4)
_mm128 a3 = (A + 8)
那么它就会越界了。此外,并行性需要 4 个向量才能最好地优化结果。
为了使用 SSE,将小(奇元素)内核加载到向量中的最佳方法是什么?
谢谢你。
假设我有一个非常小且奇数的元素内核 (3x3)(存储在一维数组中),我想使用 SSE 将该内核加载到向量中并进行并行处理。
浮动*A;
如果我这样做:
_mm128 a1 = (A + 0)
_mm128 a2 = (A + 4)
_mm128 a3 = (A + 8)
那么它就会越界了。此外,并行性需要 4 个向量才能最好地优化结果。
为了使用 SSE,将小(奇元素)内核加载到向量中的最佳方法是什么?
谢谢你。