3

我刚开始学习编程。这是我的第一篇文章。我正在阅读 Kernighan 和 Ritchie 的《C 编程语言》一书,遇到了一个我不理解的示例(第 1.9 节,第 30 页)。

该程序将文本作为输入,确定最长的行并打印出来。声明了字符数组 line[MAXLINE],其中 MAXLINE 为 1000。这应该意味着该数组的最后一个元素的索引为 MAXLINE-1,即 999。但是,如果您查看函数 getline,它正在传递 line[ ] 数组作为参数(MAXLINE 作为 lim),看起来如果用户输入的行长于 MAXLINE,则 i 将递增直到 i = lim,即 i = MAXLINE。因此,语句 line[i] = '\0' 将是 line[MAXLINE] = '\0'。

这在我看来是错误的 - 如果 line[] 的大小是 MAXLINE,我们如何写入 line[MAXLINE] 位置。它不会写入数组之外的位置吗?

我能想到的唯一解释是,在声明 char array[size] 时,C 语言实际上创建了 char array[size+1] 数组,其中最后一个元素是为 NULL 字符保留的。如果是这样,这很令人困惑,并且在书中没有提到。谁能证实这一点,或解释发生了什么?

#include <stdio.h>
#define MAXLINE 1000 /* maximum input line length */
int getline(char line[], int maxline);
void copy(char to[], char from[]);

/* print the longest input line */
main()
{
    int len;                           /* current line length */
    int max;                          /* maximum length seen so far */
    char line[MAXLINE];          /* current input line */
    char longest[MAXLINE];     /* longest line saved here */

    max = 0;

    while ((len = getline(line, MAXLINE)) > 0)
           if (len > max) {
           max = len;
           copy(longest, line);
           }
    if (max > 0) /* there was a line */
           printf("%s", longest);

return 0;
}

/* getline: read a line into s, return length */
int getline(char s[],int lim)
{
    int c, i;

    for (i=0; i < lim-1 && (c=getchar())!=EOF && c!='\n'; ++i)
        s[i] = c;
    if (c == '\n') {
        s[i] = c;
        ++i;
    }
    s[i] = '\0';

return i;
}

/* copy: copy 'from' into 'to'; assume to is big enough */
void copy(char to[], char from[])
{
    int i;
    i = 0;

    while ((to[i] = from[i]) != '\0')
        ++i;
}
4

4 回答 4

3

for循环似乎正在读取getline

for (i=0; i < lim-1 && (c=getchar())!=EOF && c!='\n'; ++i)
    s[i] = c;

它看起来i是递增的,直到它达到lim - 1,而不是limlim这里等于MAXLINE你所说的情况)。因此,如果该行长于MAXLINE,它将在读取MAXLINE-1字符后停止,并'\0'像您期望的那样在末尾添加。

于 2013-08-27T17:54:09.777 回答
3

如果您查看这一行,您可以看到它在限制前两个字符停止循环。i < lim -1

for (i=0; i < lim-1 && (c=getchar())!=EOF && c!='\n'; ++i)

如果 char 是 a \n,则附加它,因此在这种情况下 0 字节正好处于限制位置,如果该行正好短一个字节,则限制(这是正确的,因为还包括 0 字节)。

于 2013-08-27T17:58:51.583 回答
2

不,我认为它很干净。

请注意,自从本书编写以来,POSIX 已经标准化了一个getline()具有完全不同接口的函数;这可能会引起一些麻烦,但可以通过重命名 K&R 中的函数来解决。

代码是:

int getline(char s[],int lim)
{
    int c, i;

    for (i = 0; i < lim-1 && (c=getchar()) != EOF && c != '\n'; ++i)
        s[i] = c;
    if (c == '\n') {
        s[i] = c;
        ++i;
    }
    s[i] = '\0';

    return i;
}

让我们考虑两种情况:

  1. 998 个字符后跟换行符。
  2. 999 个字符后跟换行符。

第一种情况,当读取换行符之前的字符时,是997 ,小于i999 (仍小于 999,则读取换行符,并终止循环。因为是换行符,给定换行符并递增到 999。然后赋值写入元素 999,这是安全的。lim-1getchar()s[997]iics[998]is[i] = '\0';

第二种情况的分析类似。当读取换行符之前的字符时,i是998,小于999,所以getchar()执行,该字符既不是EOF也不是换行符,所以s[998]被赋值,并i递增到999。由于i不再小于999,循环退出而不读取换行符;因为c不是换行符,所以if不会执行 after 循环的主体;然后将 null 写入s[999],这是安全的。

如果在换行符之前检测到 EOF(因此文件不以换行符结尾,并且在技术上不是根据 C 标准的文本文件),则循环安全地中断而不会溢出缓冲区。

是否有未涵盖的案例?

这称为测试边界条件。重要的是测试低于限制(以确保它工作正常)和限制(以确保它可以处理)。大多数情况下,该算法不需要超过一个正下方的测试和一个极限的测试;有时,如果算法处理限制任一侧的多个数字(例如 3 个单元格的平均值),那么您必须在上限进行更多测试。下边界测试也很重要——对 0、1、2、... 进行测试非常有价值。

于 2013-08-27T18:03:27.697 回答
1

一般回答

在分配的内存之外读/写是未定义的行为。

在许多情况下,它会导致可怕的Segmentation fault

在某些情况下,您可能会因为纯粹的运气而逃脱(例如,因为您访问的实际内存在物理/逻辑上是存在的,并且没有以其他方式使用)。

简单的答案是:不要这样做!保护您的代码免于访问越界内存。

C 从不做任何魔术,比如n+1当你真的只要求分配字节时分配n字节。

至于你的具体例子

for (i=0; i < lim-1 /* ... */ ; ++i)

这不会真正i增加到lim,因为条件确保它i小于lim-1,所以一旦它到达lim-1(它仍然是 内的有效索引s[])它将停止for-loop..

于 2013-08-27T17:54:02.827 回答