我想知道是否有一些最佳方法来压缩具有数百万行重复/按顺序重复的 csv 文件。每行有 4-5 个元素。唯一的行只有几百个,但因为每一个都出现了很多次,所以文件的整体大小很大。
我不熟悉 gzip、bzip2 等工具中使用的详细算法,但我在思考是否有任何方法可以指导 gzip 或 bzip2 这种模式。例如,如果我有 100 万行 a、b、c、d、e,那么在内部这可以最佳地表示为 abcde 的一个条目,如果重复次数(例如 abcde 重复 2 M 次) )。这将比说更优化,因为压缩算法尝试压缩 abcdeabcdeabcde...。我正在寻找一种通用方法来优化案例,因为这些案例中的数据采用排序的表格格式并包含重复的行/元组。
提前致谢。