assembly - 如何正确交换 x86 程序集中的 2 个字节？

Question

我有一个缓冲区，其中包含：'bac\n'并且我正在尝试交换字母'b'和'a'

我检查了调试器，它在 ebp 指向的地址打印了 4 个字节：'bac\n'

ebp - 缓冲区的地址
eax - 偏移量（当前为 0），因此ebp + eax指向'b'缓冲区中的
ebx - 包含'b'
edi - 包含'a'

问题是当我运行应该用以下内容覆盖'b'缓冲区中的指令时'a'：

mov [ebp + eax], edi

...然后当我打印缓冲区时，它现在包含：'ac\n'. 去哪儿了'b'？如果我运行下一条应该用 a 覆盖'a'缓冲区中的指令，则'b'完成交换：

mov  [ebp + eax + 1], ebx

...然后缓冲区现在包含：'abac'而不是'abc\n'

谁能解释这里发生了什么？

score 2 · Accepted Answer

我想你之前已经复制了整个 32 位寄存器，在你没有显示的部分

; copy 4 bytes from ebp + eax to ebp + eax + 3
mov ebx, [ebp + eax]     ; ebx = 'bac\n'
mov edi, [ebp + eax + 1] ; edi = 'ac\n<garbage>', which is ebp + eax + 1 to ebp + eax + 4

因此，在将字符移回内存后

mov [ebp + eax], edi     ; the string now becomes 'ac\n<garbage>'
mov [ebp + eax + 1], ebx ;                        'abac\n' (5 bytes)

这就是你所看到的。您必须只复制一个字节，而不是一个双字。但是 DI 没有对应的字节寄存器名称，因此您应该将寄存器使用重新排列到低字节寄存器，例如 CL/BL，例如

mov  bl, [ebp + eax]
xchg [ebp + eax + 1], bl ; simple, but not efficient
mov  [ebp + eax], bl

如果您没有可用的寄存器，您将不得不使用按位操作

如果您使用 x86_64，则 DI 的低位部分可以评估为DIL，但它会长一个字节

score 1 · Accepted Answer

OP 的关键问题是 EDI 只能作为 32 位值移动到内存中。正如 Luu 建议的那样，他需要一个可以作为 8 位值移动的寄存器；这将是 AH、AL、BH、...。AL 最容易使用，它是 EAX 的“一部分”。

如果 OP 修改他的代码以便 EDI 包含偏移量，EAX 包含字符，那么按照 Luu 的建议会很容易。那么存储一个字节所需的指令是

mov byte ptr [ebp+edi],al

“byte ptr”告诉汇编器您希望移动 8 位而不是 32 位；这在技术上是不必要的，因为使用 AL 清楚地表明只使用 8 位，但它对读者有帮助。

score 1 · Accepted Answer

您可以使用 16 位 8 位循环交换内存中的两个字节：

rol  word ptr [ebp], 8     ;  byte [ebp] becomes byte [ebp+1], and vice verse

但是，如果您已经在寄存器中有字节（例如，因为您加载了它们以便可以比较它们），那么从寄存器中存储它们可能会更好。

由于您只需要存储寄存器的低字节，因此您需要使用字节存储al或bl不使用双字存储edi！ 更改您的寄存器分配，使您的字节位于 AL、BL、CL 或 DL 之一中，而不是 EDI 的低字节中。只有 x86-64 可以访问 EDI 的低字节（作为 DIL）。使用 EDI 作为索引。（然后名称 EDI 来自目标索引）。或者，使用指针增量代替 base+index，以便 EDI 指向您可能想要交换的当前字节或字节对。

因此：

     movzx    eax, byte ptr [edi + ebp]      ; load the 1st byte
     movzx    edx, byte ptr [edi + ebp + 1]  ; load the 2nd byte
     cmp      al, dl
     jae   noswap

     mov      [edi+ebp],   dl        ; opposite of how you loaded them
     mov      [edi+ebp+1], al
noswap:
     inc      edi

     ... loop logic

movzx避免了对不将 AL 与整个 EAX 分开重命名的 CPU 上的 EAX 旧值的错误依赖。如果你完成了 mov al, [edi + ebp]，一些 CPU 会将 EAX 的旧值作为该指令的另一个输入依赖项。

请注意，如果您实际上是在实现冒泡排序（eww，yuck），则每次迭代只需执行一次加载。您总是有两个值之一要在寄存器中进行比较。您可以为第一次迭代设置循环外的负载。

如果您正在执行 16 位加载，然后仅比较低字节（例如，作为排序的一部分），那么您完全可以交换低 2 字节ebx并将其存储回来：

    movzx   eax,  word ptr [edi+ebp]
    cmp     ah, al       ; compare the low 2 bytes of EAX with each other
    jae    noswap

    rol     ax, 8        ; swap AL with AH.  This is more efficient than xchg al,ah or two MOV stores.
    mov     [edi+ebp], ax
noswap:

这本身很好，但是与下一个 16 位加载部分重叠的 16 位存储有点糟糕。（商店转发摊位）。仅将新字节加载到 AH 中（将旧字节保留在 AL 中）也不是很好。在现代英特尔 CPU 上读取 AH 时，这将暂停一个周期以合并，并创建一个依赖链。

为什么我使用[edi+ebp]而不是[ebp+edi]？它节省了一个字节以使 EBP 成为索引寄存器，因为[EBP + EDI*1]没有位移是不可编码的。NASM 和 YASM 不会为您交换，因为 base=EBP 意味着 SS 段。但是假设一个平坦的内存模型，没关系，所以我们可以手动进行优化。

有关的：

对 32 位int元素的冒泡排序。 x86（masm32）中的冒泡排序，我写的排序不起作用

8 位元素的 BubbleSort，在 19 个字节的 16 位 x86 机器代码中：https ://codegolf.stackexchange.com/questions/77836/sort-an-integer-list/149038#149038 和 JumpDown 排序32 位元素。

装配 - 用于排序字符串的冒泡排序（对字符串中的字符进行排序）

装配冒泡排序交换

一旦您了解 x86 部分寄存器的工作原理，在 8 位和 32 位元素之间进行更改只需更改寄存器名称并将增量从 1 更改为 4。

assembly - 如何正确交换 x86 程序集中的 2 个字节？

3 回答 3

Related

Reference