5

我正在使用 STM32F4 并尝试从 C 内部调用编写 ASM 函数。该函数将在 C 函数内部调用,并且也在中断中。我正在推动和弹出 r4-r7。我还需要做其他事情吗?我的假设是 r0-r3 不需要推动。我还在使用 ASM 函数修改全局变量。我的猜测是这些应该被宣布为 volatile。欢迎任何提示。我还注意到 ARM 概述的 Cortex M4 指令集与 GCC 编译器似乎可用的指令不同。例如,没有回写即 r0,[r1],#4 后增量是非法的。是否有允许哪些 ASM 指令的列表?我假设 STM32F4 使用 thumb2

到目前为止它似乎没有工作,我想知道除了装配错误之外可能出现的问题是什么

4

2 回答 2

2

直到我等了 8 个小时才能回答我自己的问题?无论如何,这就是我得到的,它有效!这个函数有很多事情要做。它基本上是一个正弦波振荡器,将 LUT 用于正弦值。它还使用一个指数值表,这些指数值是使用连接到控制罐的 ADC 分配的。有一个 32 位相位累加器,它创建一个斜坡,然后缩放以进行查找。正弦表(我没有包括太多)是 16 位值被截断为 14 位表大小。我确信在这段代码中有很多优化要做,但至少它让我开始。我在每次通过此函数时生成 16 个正弦波样本@48k,并填充一个缓冲区,该缓冲区(在此函数之外)被传输到 DMA 并通过 Discovery 板载编解码器输出。我必须说它听起来非常流畅。到目前为止,总指令周期似乎在 1200 左右。如果我需要它们,我有多达 56000 个周期,所以这非常好。我遇到困难的一件事是缩放正弦输出。正弦表是 int16_t 值,我希望能够将它乘以一个分数来获得音量控制。到目前为止,我没有尝试过使用 smul、mul 等工作。

    @ void get_sine(void)
        .align 2                    @ Align to word boundary
        .global get_sine       @ This makes it a real symbol
        .thumb_func
        .type get_sine STT_FUNC    @ Declare get_sine to be a function.

    get_sine:                  @ Start of function definition
        push    {r4-r7}
        ldr     r0,=pitch       @   get pitch address
        ldr     r1,=expoLUT     @   expo_tab address
        ldr     r7,[r0,#0]      @   pitch val into r7
        lsl     r7,r7,#2
        ldr     r7,[r1,r7]      @   move lookup expo tab value with r7 into r7

        ldr     r2,=sineLUT     @   sine_tab base addy
        ldr     r4,=WaveBuffer  @   storage array addy
        ldr     r5,=writePos    @   get writepos addr
        mov     r6,#0           @   clear increment r6

    outloop:
        ldr     r3,=phase       @   phase address to r3
        ldr     r1,[r3,#0]      @   get current phase
        add     r1,r1,r7        @   add current phase and ph_inc
        str     r1,[r3,#0]      @   store phase
        lsr     r0,r1,#18       @   shift it right by 18 into r0 for sine_tab lookup
        lsl     r0,r0,#2        @   align it
        ldr     r0,[r2,r0]      @   lookup sine val with r0 into r1
        lsl     r1,r0,#16       @   shift to left channel
        add     r0,r0,r1        @   add right channel
        ldr     r1,[r5,#0]      @   get writePos
        push    {r1}            @   push it before align
        lsl     r1,r1,#2        @   align address 4
        str     r0,[r4,r1]      @   store sine to WaveBuffer
        pop     {r1}            @   pop writepos back
        add     r1,r1,#1        @   increment array pointer writepos
        ldr     r3,=1024        @   load BUFFERSIZE compare
        cmp     r1,r3           @   skip if less than BUFFERSIZE
        bne     skip
        mov     r1,#0           @   clr writepos if >=BUFFERSIZE

    skip:
        str     r1,[r5,#0]      @   store writepos value
        add     r6,r6,#1        @   increment loop counter
        ldr     r0,=dataSize    @   get datasize counter addr
        ldr     r1,[r0,#0]      @   get val
        add     r1,r1,#1        @   increment datasize counter
        str     r1,[r0,#0]      @   store counter
        cmp     r6,#16          @   compare with 16 (i=0;i<16;i++)
        bne     outloop
        pop     {r4-r7}
        bx      lr



    .section .rodata
        sineLUT:
        @ Array goes in here. Type can be .byte, .hword or .word
        @ NOTE! No comma at the end of a line! This is important

    .word   0x0000,0x000c,0x0018,0x0024,0x0030,0x003c,0x0048,0x0054
    .word   0x0064,0x0070,0x007c,0x0088,0x0094,0x00a0,0x00ac,0x00bc
    .word   0x00c8,0x00d4,0x00e0,0x00ec,0x00f8,0x0104,0x0114,0x0120
    .word   0x012c,0x0138,0x0144,0x0150,0x015c,0x016c,0x0178,0x0184
    .word   0x0190,0x019c,0x01a8,0x01b4,0x01c4,0x01d0,0x01dc,0x01e8
    .word   0x01f4,0x0200,0x020c,0x021c,0x0228,0x0234,0x0240,0x024c
    .word
于 2012-06-10T17:12:26.373 回答
1

您的问题的一些答案在“ARM 体系结构的过程调用标准”一书中。这是链接

书上说,前四个寄存器 r0-r3(和 FPU 的 s0-15)用于将参数值传递给子程序并从函数返回结果值。它们也可用于在例程中保存中间值(但通常仅在子例程调用之间)。寄存器 r4-r8、r10 和 r11(以及 FPU 的 s16-s31)用于保存例程的局部变量的值。子程序必须保存这些寄存器的内容。

现在关于volatile. 我认为是的,您必须使用它来防止编译器优化可以“制动”您的程序逻辑。

关于你的正弦。英语不是我的自然语言,所以我不太明白你需要什么,但如果你需要一些快速和精确的正弦近似作为你的问题的一部分,你可能会对这篇文章感兴趣: http: //devmaster.net/forums /topic/4648-fast-and-accurate-sinecosine/ http://www.coranac.com/2009/07/sines/。

最后一个。我几乎完成了 Cortex-M4 的正弦逼近函数。它使用 FPU,大约需要 30 个周期,并在单个浮点范围内带来零错误结果。

于 2012-06-11T10:49:22.250 回答