c# - 读取非常大的文本文件，我应该合并异步吗？

Question

我一直面临着制作一种将非常大的文本文件读入程序的方法的挑战，这些文件的范围可以从 2gb 到 100gb。

到目前为止，我们的想法是在该方法中读取 1000 行文本。

目前，使用流式阅读器设置程序，逐行读取文件并处理在该行上找到的必要数据区域。

using (StreamReader reader = new StreamReader("FileName"))
{
    string nextline = reader.ReadLine();
    string textline = null;

    while (nextline != null)
    {
        textline = nextline;
        Row rw = new Row();
        var property = from matchID in xmldata
                       from matching in matchID.MyProperty
                       where matchID.ID == textline.Substring(0, 3).TrimEnd()
                       select matching;

        string IDD = textline.Substring(0, 3).TrimEnd();

        foreach (var field in property)
        {
            Field fl = new Field();

            fl.Name = field.name;
            fl.Data = textline.Substring(field.startByte - 1, field.length).TrimEnd();
            fl.Order = order;
            fl.Show = true;

            order++;

            rw.ID = IDD;
            rw.AddField(fl);
        }
        rec.Rows.Add(rw);
        nextline = reader.ReadLine();

        if ((nextline == null) || (NewPack == nextline.Substring(0, 3).TrimEnd()))
        {
            d.ID = IDs.ToString();
            d.Records.Add(rec);
            IDs++;
            DataList.Add(d.ID, d);
            rec = new Record();

            d = new Data();
        }
    }
}

该程序继续进行并填充一个类。（只是决定不发布其余部分）

我知道一旦程序显示一个非常大的文件，就会出现内存异常错误。

所以这是我目前的问题，到目前为止，我一直在谷歌搜索几种方法，很多人只是回答使用流阅读器和 reader.readtoend，我知道 readtoend 对我不起作用，因为我会得到那些内存错误。

最后，我一直在研究 async 作为一种创建方法的方法，该方法将读取一定数量的行并在处理下一行之前等待调用。

这给我带来了我的问题，我正在努力理解异步，我似乎找不到任何可以帮助我学习的材料，并希望这里有人可以帮助我理解异步。

当然，如果有人知道解决这个问题的更好方法，我会全力以赴。

编辑添加了代码的其余部分以结束任何混乱。

score 6 · Accepted Answer

您的问题不是同步 v 的异步，而是您正在读取整个文件并将部分文件存储在内存中，然后再对这些数据进行操作。

如果您正在读取每一行，处理它并将结果写入另一个文件/数据库，那么StreamReader将让您处理多 GB（或 TB）文件。

如果您在完成阅读之前存储文件的一部分，那么只有一个问题，然后您可能会遇到内存问题（但您会惊讶于在内存不足之前您可以让Lists&Dictionaries获得多大）

您需要做的是尽快保存处理后的数据，而不是将其保存在内存中（或尽可能少地保存在内存中）。

对于这么大的文件，您可能需要将您的工作集（您的处理数据）保存在数据库中 - 可能像 SqlExpress 或 SqlLite 之类的东西会这样做（但同样，这取决于您的工作集有多大）。

希望这会有所帮助，请随时在评论中提出更多问题，或编辑您的原始问题，如果我能以任何方式提供帮助，我会更新此答案。

更新 - 分页/分块

您需要一页一页地阅读文本文件，并允许用户滚动文件中的“页面”。当用户滚动时，您会阅读下一页并将其呈现给他们。

现在，您可以做一些事情来帮助自己，始终在内存中保留大约 10 页，这可以让您的应用在用户快速向上/向下翻几页时做出响应。在应用程序空闲时间（Application Idle 事件）中，您可以在接下来的几页中阅读，再次丢弃当前页面之前或之后超过五页的页面。

向后分页是一个问题，因为您不知道文件中每一行的开始或结束位置，因此您不知道每一页的开始或结束位置。因此，对于向后分页，当您向下阅读文件时，保留每个页面开头的偏移量列表 ( Stream.Pos)，然后您可以快速Seek到给定位置并从那里读取页面。

如果您需要允许用户搜索文件，那么您几乎可以逐行阅读文件（记住页面偏移量）以查找文本，然后当您找到某些内容时，读入并显示它们那个页面。

您可以通过将文件预处理到数据库中来加速一切，有网格控件可以处理动态数据集（它们将为您进行分页），并且您可以从内置搜索/过滤器中受益。

因此，从某种角度来看，这是异步读取文件，但这是从用户的角度来看。但是从技术的角度来看，当我们谈论在编程时做一些异步的事情时，我们往往意味着别的东西。

c# - 读取非常大的文本文件，我应该合并异步吗？

1 回答 1

Related

Reference