0

当我尝试读取大文件(~412 MB)时,文件突然停止读取。该程序运行了一个月,但现在我出错了。我不知道为什么。你能帮忙吗?当我使用 Purify 检查它时,它说程序的内存分配失败

 s.write(block, f.gcount());

我正在将一个大文件写入缓冲区(我正在读取大块文件)。然后我解析这个缓冲区并读取文件的下一部分。我试图用更少的文件读取文件,但结果是一样的:程序刚刚停止读取,然后什么也不做。没有任何异常(我试图捕捉std::exception)是什么原因?你能帮忙吗?

该文件非常简单:

p edge 45 45

e 4 1 

e 5 6

等等

这是代码:

   readFile(char name[]) {
       ifstream f;
       f.open(name,ifstream::binary);
       char buffer[256], token[20];
       int i, j, k, tmp;
       int vi = 0, vj = 0;
       int num_edges = 0;

       if (! f.is_open()) 
       { 
            cout << "Error opening file: " << name << endl; 
            //_getch();
        exit(1); 
       }

       strstream s;
       static const int N = 1024*1024;
       char block[N];


    while (! f.eof() ) 
    {
        s.clear();
        f.read(block, N);
        s.write(block, f.gcount());

        while (! s.eof())
        {
            s.getline(buffer, 250);
            if (s.eof())
            {
                s.write(buffer, s.gcount());
                break;
            }

            if (buffer[0] == 'c')
            {
                continue;
            }

            if (buffer[0] == 'p') 
            {
                cout << buffer << endl;
                sscanf(&buffer[7], "%d", &globalColouredVertices.size);

                if(globalColouredVertices.size > MAX_VERTICES) {
                    cout << "Too many vertices (> " << MAX_VERTICES << ")"<< endl;
                    exit(2);
                }

                //e.resize(globalColouredVertices.size);
                for (i = 0; i < globalColouredVertices.size; i++)
                {
                    globalColouredVertices.ele[i].point = i;
                }
            }
            if (buffer[0] == 'e') 
            {
                num_edges++;
                i = 2;
                j = 0;
                while ((buffer[i] >= '0') && (buffer[i] <= '9')) 
                { 
                    token[j++] = buffer[i];
                    i++; 
                }
                token[j] = '\0';
                vi = atoi(token);
                i++;
                j = 0;
                while ((buffer[i] >= '0') && (buffer[i] <= '9')) 
                { 
                    token[j++] = buffer[i];
                    i++; 
                }
                token[j] = '\0';
                vj = atoi(token);
                vi--;
                vj--;
                e[vi][vj] = 1;
                e[vj][vi] = 1;
            }

            if (num_edges % 10000 == 0)
                cout << num_edges << endl;
            else if (num_edges %  24380000 == 0) {
                cout << endl;
            }
        }
    }
 }
4

2 回答 2

2

您使用 astrstream作为缓冲区已被破坏,几乎可以肯定是不必要的。

此代码将在您的 strstream 中放置部分行。因此,当您稍后逐行阅读时,您可能会在每个缓冲区的末尾得到一个不完整的行,然后在下一个缓冲区的开头得到另一个不完整的行。

    f.read(block, N);
    s.write(block, f.gcount());

那,再加上您的代码中没有任何数组绑定检查(特别是这个片段,以及其他人提到的那些),这意味着这是一场等待发生的车祸。

            e[vi][vj] = 1;
            e[vj][vi] = 1;

强烈推荐你

  • a: 完全删除 strstream 缓冲区。
  • b: 考虑使用 std::vector 而不是手动分配缓冲区。
  • c:然后您可以使用该at()函数进行边界检查访问,这将引发异常。

在完成之前不要担心优化或性能。

于 2013-02-28T13:45:01.773 回答
1

这可能不是您看到的问题,但您的代码中有几个潜在的缓冲区溢出。例如:

while ((buffer[i] >= '0') && (buffer[i] <= '9')) 
{ 
    token[j++] = buffer[i];
    i++; 
}

你真的应该检查索引没有超过缓冲区大小。

于 2013-02-28T12:54:22.543 回答