c# - 处理非常大的数据集并及时加载

Question

我有一个用 C# (.NET 4.0) 编写的 .NET 应用程序。在这个应用程序中，我们必须从文件中读取一个大型数据集，并以类似网格的结构显示内容。因此，为了实现这一点，我在表单上放置了一个 DataGridView。它有 3 列，所有列数据都来自文件。最初，该文件有大约 600.000 条记录，对应于 DataGridView 中的 600.000 行。

我很快发现，DataGridView 在这么大的数据集下崩溃了，所以我不得不切换到虚拟模式。为此，我首先将文件完全读入 3 个不同的数组（对应于 3 列），然后触发 CellValueNeeded 事件，我从数组中提供正确的值。

但是，正如我们很快发现的那样，该文件中可能有大量（大量！）记录。当记录大小非常大时，将所有数据读入数组或 List<> 等似乎是不可行的。我们很快就会遇到内存分配错误。（内存不足异常）。

我们被困在那里，但后来意识到，为什么要先将数据全部读入数组，为什么不在 CellValueNeeded 事件触发时按需读取文件？这就是我们现在要做的：我们打开文件，但不读取任何内容，并且随着 CellValueNeeded 事件的触发，我们首先将 Seek() 到文件中的正确位置，然后读取相应的数据。

这是我们能想到的最好的方法，但是，首先这很慢，这使得应用程序迟缓并且对用户不友好。其次，我们不禁认为必须有更好的方法来实现这一点。例如，一些二进制编辑器（如 HXD）对于任何文件大小都非常快，所以我想知道如何实现这一点。

哦，为了增加我们的问题，在 DataGridView 的虚拟模式下，当我们将 RowCount 设置为文件中可用的行数（比如 16.000.000）时，DataGridView 甚至需要一段时间才能初始化自身。对此“问题”的任何评论也将不胜感激。

谢谢

score 5 · Accepted Answer

如果您无法将整个数据集放入内存中，那么您需要一个缓冲方案。您的应用程序应该预测用户的操作并提前阅读，而不是仅仅读取填充DataGridView响应所需的数据量。CellValueNeeded因此，例如，当程序第一次启动时，它应该读取前 10,000 条记录（或者可能只有 1,000 条或可能 100,000 条——在您的情况下是合理的）。然后，CellValueNeeded可以立即从内存中填充请求。

当用户在网格中移动时，您的程序尽可能地领先用户一步。如果用户跳到你前面（比如说，想从前面跳到最后），你可能会出现短暂的停顿，而你必须走出磁盘才能完成请求。

这种缓冲通常最好由一个单独的线程来完成，尽管如果线程在预读用户的下一个动作时提前读取，那么同步有时会成为问题，然后用户做了一些完全出乎意料的事情，比如跳转到列表的开头。

1600 万条记录并不是要保存在内存中的所有记录，除非记录非常大。或者，如果您的服务器上没有太多内存。当然，1600 万远不及 a 的最大大小List<T>，除非T是值类型（结构）。您在这里谈论多少 GB 的数据？

score 4 · Accepted Answer

好吧，这是一个似乎效果更好的解决方案：

第 0 步：将 dataGridView.RowCount 设置为较低的值，例如 25（或适合您的表单/屏幕的实际数字）

步骤 1：禁用 dataGridView 的滚动条。

第 2 步：添加您自己的滚动条。

第 3 步：在您的 CellValueNeeded 例程中，响应 e.RowIndex+scrollBar.Value

第 4 步：关于数据存储，我目前打开了一个 Stream，在 CellValueNeeded 例程中，首先执行 Seek() 和 Read() 所需的数据。

通过这些步骤，对于非常大的文件（测试高达 0.8GB），我在 dataGrid 中滚动获得了非常合理的性能。

所以总而言之，看起来减速的实际原因不是我们一直在寻找（）和读取（）的事实，而是实际的 dataGridView 本身。

score 1 · Accepted Answer

管理可以汇总、小计、用于多列计算等的行和列提出了一系列独特的挑战；将问题与编辑遇到的问题进行比较并不公平。自 VB6 以来，第三方数据网格控件一直在解决在客户端显示和操作大型数据集的问题。使用按需加载或自包含的客户端 garguantuan 数据集来获得真正快速的性能并非易事。按需加载可能会受到服务器端延迟的影响；在客户端上操作整个数据集可能会受到内存和 CPU 限制的影响。一些支持即时加载的第三方控件同时提供客户端和服务器端逻辑，而另一些则试图 100% 解决客户端问题。

score 1 · Accepted Answer

由于 .net 位于本机操作系统之上，因此运行时加载和管理从磁盘到内存的数据需要另一种方法。了解原因和方法： http: //www.codeproject.com/Articles/38069/Memory-Management-in-NET

score 0 · Accepted Answer

为了解决这个问题，我建议不要一次加载所有数据。而是以块的形式加载数据并在需要时显示最相关的数据。我刚刚做了一个快速测试，发现设置 a 的DataSource属性DataGridView是一个很好的方法，但是对于大量的行也需要时间。所以使用MergeDataTable 的功能来分块加载数据并向用户显示最相关的数据。在这里，我演示了一个可以帮助您的示例。

c# - 处理非常大的数据集并及时加载

5 回答 5

Related

Reference