iphone - 如何使用 NEON 在 ARM 程序集中实现 16 位->32 位查找表？

Question

在 iOS 6 项目中，我有一个包含两个字节字（16 位）的缓冲区，需要通过查找表将其转换为四个字节字（32 位）。我将这些值硬编码到表中，然后使用两个字节缓冲区的值来确定要检索哪个 32 位表值。这是一个例子：

void map_values(uint32_t *dst,uint16_t *src,uint32_t *lut,int buf_length){
    int i=0;
    for(i=0;i<buf_length;i++){

        *dst = *(lut+(*src));
        dst++;
        src++;
    }
}

问题是，它太慢了。这可以通过使用 NEON 一次处理 4 个输出字节来加速吗？问题是，我不确定如何从 src 缓冲区中获取值并将其用作查找表的输入来确定要检索的值。此外，表和输出缓冲区中的字长相同，但源不同。因此，我只能读取两个 16 位字作为输入，而我需要四个 32 位字输出。有任何想法吗？也许有更好的方法来解决这个问题？

当前来自 clang 的 asm 输出（clang -O3 -arch armv7 lut.c -S）：

    .section    __TEXT,__text,regular,pure_instructions
    .section    __TEXT,__textcoal_nt,coalesced,pure_instructions
    .section    __TEXT,__const_coal,coalesced
    .section    __TEXT,__picsymbolstub4,symbol_stubs,none,16
    .section    __TEXT,__StaticInit,regular,pure_instructions
    .syntax unified
    .section    __TEXT,__text,regular,pure_instructions
    .globl  _map_values
    .align  2
    .code   16                      @ @map_values
    .thumb_func _map_values
_map_values:
@ BB#0:
    cmp r3, #0
    it  eq
    bxeq    lr
LBB0_1:                                 @ %.lr.ph
                                        @ =>This Inner Loop Header: Depth=1
    ldrh    r9, [r1], #2
    subs    r3, #1
    ldr.w   r9, [r2, r9, lsl #2]
    str r9, [r0], #4
    bne LBB0_1
@ BB#2:                                 @ %._crit_edge
    bx  lr


.subsections_via_symbols

score 3 · Accepted Answer

查找表（几乎）是不可向量化的。该指令可以处理非常小的查找表vtbl，但是您的查找表太大了。

你用查找表做什么？如果可以在没有太多工作而不是查找它们的情况下即时计算这些值，那实际上对您来说可能是一个重大的胜利。

score 1 · Accepted Answer

我的第一个想法是，您可能会从Accelerate框架vtablelookup的 vecLib 部分中获得一些运气。签名是：

vUInt32 vtablelookup (
   vSInt32 Index_Vect,
   uint32_t *Table
);

其中vSInt32和vUInt32分别是 128 位压缩的 32 位有符号/无符号整数。我相信该功能由 ARM 上的 NEON 提供支持。最大的问题是将您的src数组转换为 32 位索引，这很可能会减慢速度，从而使矢量化查找的速度增益变得毫无意义。

iphone - 如何使用 NEON 在 ARM 程序集中实现 16 位->32 位查找表？

2 回答 2

Related

Reference