unix - XML 文件的长度

Question

我有一个大小为 31 GB 的 XML 文件。我需要找到该文件中的总行数。我知道命令wc -l会给我同样的。但是，执行此操作需要很长时间。有没有更快的机制来查找大文件中的行数？

score 6 · Accepted Answer

31 gigs 是一个非常大的文本文件。我敢打赌它会压缩到大约 1.5 gigs。我会以压缩格式创建这些文件，然后您可以通过 wc 流式传输文件的解压缩版本。这将大大减少用于处理此文件的 i/o 和内存量。gzip 可以读写压缩流。

但我也会发表以下评论：

score 4 · Accepted Answer

如果您只需要行数，wc -l将与其他任何东西一样快。

问题是 31GB 的文本文件。

score 3 · Accepted Answer

如果准确性不是问题，请找到平均行长度并将文件大小除以该长度。这样你就可以得到一个非常快速的近似值。（确保考虑使用的字符编码）

score 2 · Accepted Answer

这超出了应该重构代码以完全避免您的问题的地步。一种方法是将文件中的所有数据放入元组存储数据库中。Apache couchDB 和 Intersystems Cache 是您可以为此使用的两个系统，并且将针对您正在处理的数据类型进行更好的优化。

如果你真的被 xml 文件卡住了，那么另一个选择是提前计算所有行并缓存这个值。每次从文件中添加或删除一行时，您都可以从文件中添加或减去一行。此外，请确保使用 64 位整数，因为可能有超过 2^32 行。

score 1 · Accepted Answer

不，不是。wc将得到很好的优化。31GB 是很多数据，无论您使用什么程序，将其读入计算行数都需要一段时间。

此外，这个问题并不适合 Stack Overflow，因为它根本与编程无关。

score 1 · Accepted Answer

由于在 XML 中换行基本上只是一种装饰性的东西，所以计数行不是很不确定吗？计算特定标签的出现次数可能会更好。

6 回答 6