0

我有以下 C 代码:

int main()
{
    char s[10];

    scanf("%s", s);
}

编辑:为上层 C 程序生成的程序集如下:

push   %rbp
mov    %rsp,%rbp
sub    $0x10,%rsp
lea    -0x10(%rbp),%rax
mov    %rax,%rsi
mov    $0x4005e4,%edi
mov    $0x0,%eax
callq  400420 <__isoc99_scanf@plt>
leaveq
retq

如果用户输入超过数组的大小,将导致覆盖其他堆栈值。查看生成的程序集,我发现 gcc 将堆栈指针降低了 16 个字节而不是 10(字对齐)。所以,如果我输入超过 16 个字节,堆栈应该会损坏,并且在 main 返回时它应该可能只是段错误。

有趣的这种行为确实会发生,但如果我输入很多字符就会发生这种情况。为什么它不会在 17 个字符时失败?

4

3 回答 3

2

实际行为围绕着如何在堆栈上分配内存的细节(这取决于实现,导致未定义的行为)。假设当您的代码被输入(调用)时,堆栈偏移量为 0,而 RSP 指向的是返回地址。

如果您快速浏览一下汇编程序,这可能会突然出现:

sub    $0x10,%rsp

这会为您的局部变量保留空间,而这是您所期待的。很容易认为这 16 个字节是我们保留的唯一堆栈空间。如果我们越过这一点,我们将覆盖返回值并使进程(或至少线程)崩溃。

因为很容易错过第一条指令:

push   %rbp

将基指针保存为调用约定的一部分(因此可以跟踪调用堆栈),并占用额外的 8 个字节(对于 64 位架构,ebp 在 32 位上只有 4 个字节)。因此,在开始覆盖返回地址之前,您有 24 个字节。请记住,如果您输入 24 个字符,终止的 null ('\0') 将存储为第 25 个字符,这将破坏返回地址。

虽然存储在堆栈中的基指针也被覆盖,但main之后就不再使用它了。但请注意,调用者会搞砸,因为:

leaveq

将 RSP 设置为 RBP,然后设置 POP RBP。所以如果调用者在调用返回后引用了局部变量,那么很可能会出现问题。如果调用者不同(如果您使用不同的运行时),写入第 17 个字符可能会出现问题(可能导致调用者出现 SEGFAULT)。

于 2013-02-04T20:33:01.290 回答
0

如果您覆盖堆栈,该程序将表现得非常糟糕。特定的编译器将以自己内部定义的方式格式化堆栈。

避免这种情况的方法是使用以将输入字符数限制为缓冲区大小的方式读取的内容。

一种方法是将长度添加到格式"%9s"中,为字符串字符的结尾留出空间。

于 2013-02-04T20:14:52.467 回答
0

首先,代码将获得段错误,而不是覆盖缓冲区的末尾,而是访问系统中不存在的内存[或尝试写入只读内存,但这不太可能案子]。因此,在您的代码从 main 返回之前不会发生这种情况 - 除非字符串太长以至于超过堆栈上可用的最高地址 - 这很可能是几百个字节,如果不超过的话。[当然,在您按下回车之前,根本不会发生任何输入 - 直到那时,输入只是保存在缓冲区中stdin]

其次,它被称为“未定义的行为”(简称 UB),意思是它没有定义会发生什么。所以,你不能指望任何特定的行为是确定的——它的工作方式可能与你所期望的不同。UB 是不可预测的,并且在某些情况下看起来工作得非常好[因为您刚刚覆盖的内容,或者“滥用”的内容实际上并没有以某种足以导致崩溃的关键方式使用 - 但发票发送到客户现在拥有非常巨大的美元价值...... ;)

于 2013-02-04T20:16:42.903 回答