simd - Aarch64 NEON 中的 UADDL 与 UADDL2

Question

霓虹灯组装

我正在尝试了解 arm-v8 NEON。让我举一个例子，我想做什么。

我从数组 A 加载 16 字节（uchar 中的像素）。现在我想尝试“延长 ADD”到 ushort。从文档中，我看到UADDL 和 UADDL将分别对源寄存器的下半部分和上半部分进行加长加法。我可以编写以下代码来让它工作：

ld1 {V10.16B}, [x0]

uaddl V11.8H, V10.8B, V10.8B    
uaddl2 V12.8H, V10.16B, V10.16B 

st1 {V11.8H}, [x1], #16 
st1 {V12.8H}, [x1], #16

NEON 内在

来到 NEON Intrinsics，语法如下：（参见第 8 页）

uint16x8_t vaddl_u8 (uint8x8_t a, uint8x8_t b)
uint16x8_t vaddl_high_u8 (uint8x16_t a, uint8x16_t b)

在这里，两个函数的输入是不同类型的。

因此，一旦我加载了一个 uint8x16_t 变量，我应该如何将此变量传递给 vaddl_u8？我可以做任何铸造吗？还是我必须将下半部分复制到另一个变量？（也就是说，这是额外的费用）

所以我的问题是，如何使用 NEON 内在函数来实现这段汇编代码？

更新

我在 Ubuntu 16.04 中使用 aarch64-linux-gnu-g++（gcc 版本 5.4.0）。

score 0 · Accepted Answer

您应该知道两者uint8x16_t和uint8x8_t都是不同的数据类型。

以下是我会做的：

uint8x16_t a, b, c;
uint8x8_t low, high;
.
.
.
a = vld1q_u8(pSrc);

low = vget_low_u8(a);
high = vget_high_u8(a);

b = vaddl_u8(low, low);
c = vaddl_u8(high, high);

vst1q_u8(pDst++, b);
vst1q_u8(pDst++, c);

顺便说一句，请问你是从哪里来vaddl_high_u8的？？？

Android Studio 3.0.1 上的自动完成功能并未将其显示为可行的选项。

simd - Aarch64 NEON 中的 UADDL 与 UADDL2

霓虹灯组装

NEON 内在

更新

1 回答 1

Related

Reference