2

我有一个大于 200MB 的大文件。该文件是来自外部方的 CSV 文件,但遗憾的是,我不能像\r\n定义新行那样逐行读取文件。

目前我正在使用这种方法阅读所有行:

var file = File.ReadAllText(filePath, Encoding.Default);
var lines = Regex.Split(file, @"\r\n");

for (int i = 0; i < lines.Length; i++)
{
    string line = lines[i];
    ...
}

我该如何优化呢?在我的 225MB 文件上调用 ReadAllText 后,该进程使用了​​超过 1GB 的 RAM。在我的情况下是否可以使用流式传输方法,我需要使用我的\r\n模式拆分文件?

EDIT1: 您使用File.ReadLinesStreamReader的解决方案将不起作用,因为它将文件中的每一行视为一行。我需要使用我的\r\n模式拆分文件。使用我的代码读取文件会产生 758.371 行(这是正确的),而正常的行数会产生超过 150 万行。

解决方案

public static IEnumerable<string> ReadLines(string path)
{
    const string delim = "\r\n";

    using (StreamReader sr = new StreamReader(path))
    {
        StringBuilder sb = new StringBuilder();

        while (!sr.EndOfStream)
        {
            for (int i = 0; i < delim.Length; i++)
            {
                Char c = (char)sr.Read();
                sb.Append(c);

                if (c != delim[i])
                    break;

                if (i == delim.Length - 1)
                {
                    sb.Remove(sb.Length - delim.Length, delim.Length);
                    yield return sb.ToString();
                    sb = new StringBuilder();
                    break;
                }
            }
        }

        if (sb.Length>0)
            yield return sb.ToString();
    }
}
4

5 回答 5

6

您可以使用File.ReadLineswhich 返回IEnumerable<string>而不是将整个文件加载到内存中。

foreach(var line in File.ReadLines(@filePath, Encoding.Default)
                        .Where(l => !String.IsNullOrEmpty(l)))
{
}
于 2012-10-26T11:23:41.723 回答
4

使用StreamReader会很容易。

using (StreamReader sr = new StreamReader(path)) 
 {
      foreach(string line = GetLine(sr)) 
      {
           //
      }
 }


    IEnumerable<string> GetLine(StreamReader sr)
    {
        while (!sr.EndOfStream)
            yield return new string(GetLineChars(sr).ToArray());
    }

    IEnumerable<char> GetLineChars(StreamReader sr)
    {
        if (sr.EndOfStream)
            yield break;
        var c1 = sr.Read();
        if (c1 == '\\')
        {
            var c2 = sr.Read();
            if (c2 == 'r')
            {
                var c3 = sr.Read();
                if (c3 == '\\')
                {
                    var c4 = sr.Read();
                    if (c4 == 'n')
                    {
                        yield break;
                    }
                    else
                    {
                        yield return (char)c1;
                        yield return (char)c2;
                        yield return (char)c3;
                        yield return (char)c4;
                    }
                }
                else
                {
                    yield return (char)c1;
                    yield return (char)c2;
                    yield return (char)c3;
                }
            }
            else
            {
                yield return (char)c1;
                yield return (char)c2;
            }
        }
        else
            yield return (char)c1;
    }
于 2012-10-26T11:24:25.160 回答
0

怎么样

        StreamReader sr = new StreamReader(path);
        while (!sr.EndOfStream)
        {
                string line = sr.ReadLine();
        }

使用流阅读器方法意味着整个文件不会被加载到内存中。

于 2012-10-26T11:29:12.437 回答
0

使用 StreamReader 逐行读取文件:

using (StreamReader sr = new StreamReader(filePath))
{
  while (true)
  {
    string line = sr.ReadLine();
    if (line == null)
      break;
  }
}
于 2012-10-26T11:25:19.043 回答
0

这是我的午休时间:)

设置MAXREAD为您想要在内存中的数据量,例如使用 a,foreach因为我正在使用yield return. 使用代码需要您自担风险,我已经在较小的数据集上进行了尝试:)

您的用法将类似于:

foreach (var row in StreamReader(FileName).SplitByChar(new char[] {'\r','\n'}))
{
  // Do something awesome! :)
}    

和这样的扩展方法:

public static class FileStreamExtensions
{
    public static IEnumerable<string> SplitByChar(this StreamReader stream, char[] splitter)
    {
        int MAXREAD = 1024 * 1024;

        var chars = new List<char>(MAXREAD);

        var bytes = new char[MAXREAD];
        var lastStop = 0;
        var read = 0;

        while (!stream.EndOfStream)
        {
            read = stream.Read(bytes, 0, MAXREAD);
            lastStop = 0;

            for (int i = 0; i < read; i++)
            {
                if (bytes[i] == splitter[0])
                {
                    var assume = true;
                    for (int p = 1; p < splitter.Length; p++)
                    {
                        assume &= splitter[p] == bytes[i + p];
                    }

                    if (assume)
                    {
                        chars.AddRange(bytes.Skip(lastStop).Take(i - lastStop));

                        var res = new String(chars.ToArray());
                        chars.Clear();
                        yield return res;

                        i += splitter.Length - 1;
                        lastStop = i + 1;
                    }
                }
            }
            chars.AddRange(bytes.Skip(lastStop));
        }

        chars.AddRange(bytes.Skip(lastStop).Take(read - lastStop));
        yield return new String(chars.ToArray());
    }
}
于 2012-10-26T12:21:13.640 回答