我有一个大小为 50GB 及以上的 Json 文件。以下是我为阅读一小部分 Json 所写的内容。我现在需要修改它来读取大文件。
internal static IEnumerable<T> ReadJson<T>(string filePath)
{
DataContractJsonSerializer ser = new DataContractJsonSerializer(typeof(T));
using (StreamReader sr = new StreamReader(filePath))
{
String line;
// Read and display lines from the file until the end of
// the file is reached.
while ((line = sr.ReadLine()) != null)
{
byte[] jsonBytes = Encoding.UTF8.GetBytes(line);
XmlDictionaryReader jsonReader = JsonReaderWriterFactory.CreateJsonReader(jsonBytes, XmlDictionaryReaderQuotas.Max);
var myPerson = ser.ReadObject(jsonReader);
jsonReader.Close();
yield return (T)myPerson;
}
}
}
- 如果我在当前代码中构造 StreamReader 时指定缓冲区大小就足够了吗?
- 如果我在这里错了,请纠正我。缓冲区大小基本上指定了一次从磁盘读取多少数据到内存。因此,如果文件大小为 100MB,缓冲区大小为 5MB,它一次读取 5MB 到内存,直到读取整个文件。
- 假设我对第 3 点的理解是正确的,那么对于如此大的文本文件,理想的缓冲区大小是多少?int.Max size 会是个坏主意吗?在 64 位 PC 中,int.Max 大小为 2147483647。我假设缓冲区大小以字节为单位,计算结果约为 2GB。这本身可能会消耗时间。我正在寻找像 100MB - 300MB 这样的缓冲区大小。