3

我的任务是加载新的数据集(以 XML 文件编写),然后将其与“旧”集(也在 XML 中)进行比较。所有更改都写入另一个文件。

我的程序将新旧文件加载到两个数据集中,然后逐行比较新集中的主键和旧集中的主键。当我找到相应的行时,我检查所有字段,如果与旧字段有差异,我将其写入第三组,然后将其写入文件。

现在我使用:

    newDS.ReadXml("data.xml");
    oldDS.ReadXml("old.xml");

然后我只找到具有相应主键的行并比较其他字段。它对小文件非常有效。

问题是我的文件可能有大约 4GB。如果我的新旧数据都那么大,那么将 8GB 的​​数据加载到内存是很成问题的。

我想分部分加载我的数据,但是为了比较我需要整个旧数据(或者如何从 XML 文件中获取具有相应主键的特定行?)。

另一个问题是我不知道 XML 文件的结构。它由用户定义。

处理如此大的文件的最佳方法是什么?我考虑过使用 LINQ to XML,但我不知道它是否有可以帮助解决我的问题的选项。也许离开 XML 并使用不同的东西会更好?

4

1 回答 1

-2

您应该离开 XML 是绝对正确的。对于这种大小的数据集,它不是一个好的工具,特别是如果数据集由许多具有相同结构的“记录”组成。不仅 4GB 的文件很笨重,而且几乎任何你用来加载和解析它们的东西都将使用比文件大小更多的内存开销。

我建议您查看涉及 SQL 数据库的解决方案,但我不知道在您“不知道 [文件] 结构”的情况下分析 4GB 文件有什么意义,因为“它是由用户”。如果您不了解文件的结构,您对“行”和“主键”有何意义?您对 XML 了解多少

这可能是有道理的,例如。读取一个文件,将所有具有主键的记录存储在一定范围内,对另一个文件执行相同的操作,比较该数据,然后继续。通过对键空间进行分段,您可以确保始终找到匹配项(如果存在)。以同样的方式将文件分成更小的块也很有意义(尽管我仍然认为这么大的 XML 存储通常是不合适的)。你能多说一点这个问题吗?

于 2013-08-26T08:54:35.610 回答