c - 汇编循环遍历字符串以计算字符

Question

我尝试制作一个汇编代码来计算字符串中有多少个字符，但出现错误。

代码，我使用 gcc 和 intel_syntax

#include <stdio.h>

int main(){
char *s = "aqr  b qabxx xryc pqr";
int x;

asm volatile (
    ".intel_syntax noprefix;"
    "mov eax, %1;"
    "xor ebx,ebx;"
    "loop:"
        "mov al,[eax];"
        "or al, al;"
        "jz print;"
        "inc ebx;"
        "jmp loop"
    "print:"
    "mov %0, ebx;"
    ".att_syntax prefix;"
    : "=r" (x)
    : "r" (s)
    : "eax", "ebx"
);

    printf("Length of string: %d\n", x);
    return 0;

}

我得到了错误：

Error: invalid use of register

最后我想制作一个程序，它搜索正则表达式模式（[pq][^a]+a）并打印它的起始位置和长度。我用 C 编写它，但我必须让它在汇编中工作：我的 C 代码：

#include <stdio.h>
#include <string.h>

int main(){
  char *s = "aqr  b qabxx xryc pqr";
  int y,i;
  int x=-1,length=0, pos = 0;

    int len = strlen(s);
    for(i=0; i<len;i++){
        if((s[i] == 'p' || s[i] == 'q') && length<=0){
            pos = i;
            length++;
            continue;
        } else if((s[i] != 'a')) && pos>0){
            length++;
        } else if((s[i] == 'a') && pos>0){
            length++;
            if(y < length) {
                y=length;
                length = 0;
                x = pos;
                pos = 0;    
            }
            else 
                length = 0;
                pos = 0;
        }
    }  

    printf("position: %d, length: %d", x, y);
    return 0;

}

score 1 · Accepted Answer

您省略了 and 之后的jmp loop分号print:。

此外，您的 asm 也无法正常工作。您将指针移动s到 eax 中，然后用mov al,[eax]. 所以下一次通过循环， eax 不再指向字符串。

当你解决这个问题时，你需要考虑这样一个事实，即每次通过循环都需要将 eax 更改为指向下一个字符，否则mov al,[eax]会继续读取相同的字符。

由于您尚未接受答案（通过单击左侧的复选标记），因此仍有时间进行另一次编辑。

通常我不会“做别人的功课”，但已经有几天了。估计作业的截止日期已经过去了。在这种情况下，这里有一些解决方案，既适用于 OP 的教育，也适用于未来的 SO 用户：

1）遵循分配的（有些奇怪的）限制：

asm volatile (
    ".intel_syntax noprefix;"
    "mov eax, %1;"
    "xor ebx,ebx;"
    "cmp byte ptr[eax], 0;"
    "jz print;"
    "loop:"
        "inc ebx;"
        "inc eax;"
        "cmp byte ptr[eax], 0;"
        "jnz loop;"
    "print:"
    "mov %0, ebx;"
    ".att_syntax prefix;"
    : "=r" (x)
    : "r" (s)
    : "eax", "ebx"
);

2) 违反一些赋值规则来制作稍微好一点的代码：

asm (
    "\n.intel_syntax noprefix\n\t"
    "mov eax, %1\n\t"
    "xor %0,%0\n\t"
    "cmp byte ptr[eax], 0\n\t"
    "jz print\n"
    "loop:\n\t"
        "inc %0\n\t"
        "inc eax\n\t"
        "cmp byte ptr[eax], 0\n\t"
        "jnz loop\n"
    "print:\n"
    ".att_syntax prefix"
    : "=r" (x)
    : "r" (s)
    : "eax", "cc", "memory"
);

这减少了 1 个寄存器 (no ebx) 并省略了 (不必要的)volatile限定符。它还添加了“cc”clobber 以指示代码修改了标志，并使用“memory”clobber 来确保s在执行 asm 之前任何“挂起”的写入都被刷新到内存中。它还使用格式 (\n\t)，因此构建的输出-S是可读的。

3) 使用更少寄存器（no eax）的高级版本，检查以确保它s不是 NULL（返回 -1），使用符号名称并假设-masm=intel这会产生更易读的代码：

__asm__ (
    "test %[string], %[string]\n\t"
    "jz print\n"
    "loop:\n\t"
        "inc %[length]\n\t"
        "cmp byte ptr[%[string] + %[length]], 0\n\t"
        "jnz loop\n"
    "print:"
    : [length] "=r" (x)
    : [string] "r" (s), "[length]" (-1)
    : "cc", "memory"
);

摆脱（任意且未经过深思熟虑的）分配约束允许我们将其减少到 7 行（如果我们不检查 NULL，则为 5 行，如果我们不计算标签 [这实际上不是指令]，则为 3） .

有一些方法可以进一步改进这一点（%=在标签上使用以避免可能的重复符号问题，使用本地标签（.L），甚至编写它以便它同时适用于and -masm=intel等-masm=att），但我敢说这三个中的任何一个都更好比原始问题中的代码。

好吧，Kuba，在您接受答案之前，我不确定您在这里还有什么。尽管如此，它确实让我有机会包括彼得的版本。

4) 指针增量：

__asm__ (
    "cmp byte ptr[%[string]], 0\n\t"
    "jz .Lprint%=\n"
    ".Loop%=:\n\t"
    "inc %[length]\n\t"
    "cmp byte ptr[%[length]], 0\n\t"
    "jnz .Loop%=\n"
    ".Lprint%=:\n\t"    
    "sub %[length], %[string]"
    : [length] "=&r" (x)
    : [string] "r" (s), "[length]" (s)
    : "cc", "memory"
);

这不会执行 #3 中的“空指针”检查，但会执行 Peter 推荐的“指针增量”。它还避免了潜在的重复符号（使用%=），并使用“本地”标签（以开头的标签.L）来避免将额外的符号写入目标文件。

从“性能”的角度来看，这可能会稍微好一些（我没有计时）。然而，从“学校项目”的角度来看，#3 的清晰性似乎是一个更好的选择。从“如果出于某种奇怪的原因我不得不在 asm 中而不是仅仅使用标准的 c 函数来写这个，我会在现实世界中写什么”的角度来看，我可能会看看用法，除非这对性能至关重要，我很想选择#3，以方便将来的维护。

c - 汇编循环遍历字符串以计算字符

1 回答 1

Related

Reference