我有一个大小约为500MB的巨大文本文件。我尝试从 python 程序和命令行使用Gzip将其存档。但是,在这两种情况下,归档文件的大小约为240MB,而在 Windows 中使用WinRAR归档时,归档文件的大小约为450KB。我在这里缺少什么吗?为什么有这么大的差异,我能做些什么来达到类似的压缩水平?
我也用 Python 标记了它,因为任何与此相关的 Python 代码都会非常有帮助。
这是文件的前 3 行:
$ head 100.txt -n 3
31731610:22783120;
22783120:
45476057:39683372;5879272;54702019;58780534;30705698;60087296;98422023;55173626;5607459;843581;11846946;97676518;46819398;60044103;48496022;35228829;6594795;43867901;66416757;81235384;42557439;40435884;60586505;65993069;76377254;82877796;94397118;39141041;2725176;56097923;4290013;26546278;18501064;27470542;60289066;43986553;67745714;16358528;63833235;92738288;77291467;54053846;93392935;10376621;15432256;96550938;25648200;10411060;3053129;54530514;97316324;