c# - 流混淆，理解缓冲区

Question

我正在用 C# 编写自己的 XML 和 CSV 解析器（为了好玩），并且在让我的流工作时遇到了一些麻烦。基本上我想按字符加载文件并以这种方式读取它。我通常会做 readline，但这对于我现在正在做的事情和我将来打算做的事情来说有点太简单了。它似乎确实有效，但它要么真的很慢，要么在无限循环中工作。输出似乎还可以，但需要一段时间。

我一直在 MSDN 上进行大量阅读以尝试理解 Streaming，但我无法理解当前的流位置。

List<string> s = new List<string>();
StreamReader r = File.OpenText(f.FullName);
StreamWriter w = File.CreateText(@"C:\Users\XXXXX\Desktop\streamoutput.txt");
char[] buffer = new char[1024];
int count = 0;
string csvChunk = "";

while (r.Peek() >= 0) //Before end of file?
{
    r.Read(buffer, 0, buffer.length); //Attempting to load in 1024 characters

    foreach (char c in buffer)
    {
        if(c == ','){
            s.Add(csvChunk);
            csvChunk = "";
        }
        else
        {
            csvChunk += c;
            w.Write(c); //Write output to file (so I can see what is going on)
            count++;    //Number of chars done  
        }
    }
   Console.Clear();
   Console.WriteLine("Written " + count + " characters "); //Just to keep track of whats up

}
r.Close();
w.Close();

如果您能澄清以下内容，我将不胜感激：

为什么这种方法会这么慢？
在第二个循环中，是否自动从前一个位置读取 + 1024 个字符？
当我到达流的末尾附近并且当剩下 <1024 时它试图将 1024 个字符放入缓冲区时会发生什么？

score 3 · Accepted Answer

首先，正如@Leff 所说，您正在使用

csvChunk += c;

这是在每个分配上创建一个新的字符串对象，因为字符串是一个不可变的对象。您可以改用StringBuilder。另一件可能会提高你的表现的事情是BufferedStream。

var bufStream = new BufferedStream(<your stream reader>, buffer.Length);

此外，您不需要检查 Peek 方法，Read(...) 方法返回读取到数组中的字节总数，因此您的 while 语句如下所示：

while(bufStream.Read(buffer, 0, buffer.Length) != 0) 
{...}

关于你的第二个问题：是第三个：如果还有n个字节，并且 n < buffer.Length，它会读取 n 个字节，将它们放入缓冲区数组中，然后返回n

score 0 · Accepted Answer

You should read more about c# strings, which are immutable. So, every time you do something like this

csvChunk += c;

you create new string object... for every character in your input file.

http://msdn.microsoft.com/en-us/library/362314fe.aspx

c# - 流混淆，理解缓冲区

2 回答 2

Related

Reference