我有 2 个大文本文件(准确地说是 csv)。两者具有完全相同的内容,只是一个文件中的行顺序相同,而另一个文件中的行顺序不同。
当我压缩这两个文件(以编程方式,使用 DotNetZip)时,我注意到其中一个文件总是相当大 - 例如,一个文件比另一个文件大约 7 MB。-
我的问题是:
文本文件中的数据顺序如何影响压缩以及可以采取哪些措施来保证最佳压缩率?- 我认为将相似的行组合在一起(至少在我正在使用的 ZIP 文件的情况下)将有助于压缩,但我不熟悉不同压缩算法的内部结构,我会很感激快速解释在这个问题上。
哪种算法可以更好地处理这种情况,无论数据的顺序如何,都能实现最佳的平均压缩?