c - 这种字符串检索方法有什么缺点吗？

Question

不久前，我在这个网站上看到了一个功能，我对它进行了一些修改以供我使用。

它是一个使用 getc 和 stdin 检索字符串并精确分配包含该字符串所需的内存的函数。然后它只返回一个指向已分配内存的指针，该内存填充了所述字符串。

我的问题是这个函数有什么缺点（除了以后必须手动释放分配的内存）吗？你会做些什么来改进它？

char *getstr(void)
{
    char *str = NULL, *tmp = NULL;
    int ch = -1, sz = 0, pt = 0;

    while(ch)
    {
        ch = getc(stdin);
        if (ch == EOF || ch == 0x0A || ch == 0x0D) ch = 0;
        if (sz <= pt)
        {
            sz++; 
            tmp = realloc(str, sz * sizeof(char));
            if(!tmp) return NULL;
            str = tmp;
        }
        str[pt++] = ch;
    }

    return str;
}

在使用您的建议后，这里是我更新的代码，我决定只使用 256 字节作为缓冲区，因为此函数用于用户输入。

char *getstr(void)
{
    char *str, *tmp = NULL;
    int ch = -1, bff = 256, pt = 0;

    str = malloc(bff);
        if(!str) 
        {
            printf(\nError! Memory allocation failed!");
            return 0x00;
        }
    while(ch)
    {
        ch = getc(stdin);
        if (ch == EOF || ch == '\n' || ch == '\r') ch = 0;
        if (bff <= pt)
        {
            bff += 256; 
            tmp = realloc(str, bff);
            if(!tmp) 
            {
                free(str);
                printf("\nError! Memory allocation failed!");
                return 0x00;
            }
            str = tmp;
        }
        str[pt++] = ch;
    }
    tmp = realloc(str, pt);
    if(!tmp)
    {
        free(str);
        printf("\nError! Memory allocation failed!");
        return 0x00;
    }
    str = tmp;

    return str;
}

score 2 · Accepted Answer

是的，主要问题是它realloc非常慢，并且为每个角色重复调用它通常是一个坏主意。

尝试分配固定数量的内存开始，比如N=100字符，当你需要更多时，得到类似的东西2*N，然后4*N等等。您最多只会超支两倍的内存，但会节省很多运行时间。

score 2 · Accepted Answer

它无缘无故地依赖于 '\n'=='0xa' 和 '\r' =='\0d' 。如果您的意思是\rand \n，请使用它们。
它可能会非常慢，为您阅读的每个字符重新分配。
sizeof(char)保证为1，所以没有意义。
如果您分配了一块内存，则 realloc 失败，您将返回 NULL 而不返回或释放str，从而泄漏内存。
该接口没有提供指示部分失败的方法，如 #4 中所示。您所能做的就是返回一个字符串或不返回。给定一个巨大的输入字符串，您无法表明您已经阅读了部分而不是全部。

score 2 · Accepted Answer

这是前几个观察结果，其他答案包括更多：

它一次将缓冲区增加 1 个字节，因此进行了不必要的多次realloc()调用。
如果realloc()失败，则先前的缓冲区丢失。
不是getline()，虽然它当然更便携。
硬编码换行和回车的 ASCII 值也不是很便携，使用'\n'and'\r'代替。

score 2 · Accepted Answer

IMO 过于节俭，并且犯了牺牲性能以节省无限量内存的错误，我认为这在大多数情况下毫无意义。像 realloc 这样的分配调用对系统来说可能很费力，在这里它是为每个字节完成的。

最好只有一个本地缓冲区，比如 4KB 来读入，然后根据实际读入的长度分配返回字符串。请记住，普通系统上的堆栈*无论如何都是 4-8MB，无论您是否全部使用它。如果读取的字符串长度超过 4KB，您可以编写一个类似的循环来分配并复制到返回字符串中。所以一个类似的想法，但是堆分配将每 4096 个字节而不是每个字节发生一次，所以，例如，你有 4096 的初始缓冲区，当它用完时你 malloc 4096 作为返回字符串并复制，继续读入缓冲区（从头开始），如果再读取 1000 个字节，则重新分配到 5097 并返回。

我认为初学者的一个常见错误是痴迷于通过逐字节接近堆分配来最小化堆分配。即使 KB by KB 也有点小；系统以页面 (4 KB) 为单位分配，您不妨调整一下。

*为函数内部的本地存储提供的内存。

c - 这种字符串检索方法有什么缺点吗？

4 回答 4

Related

Reference