我对理解大数据世界中的可拆分和不可拆分文件格式感到困惑。我使用的是 zip 文件格式,我知道 zip 文件是不可拆分的,当我处理该文件时,我必须使用ZipFileInputFormat
基本上解压缩然后处理它的方式。
然后我开始gzip
格式化,我可以在我的 spark 工作中处理它,但我总是怀疑为什么人们说gzip
文件格式也不能拆分?
它将如何影响我的火花工作表现?
因此,例如,如果有 5k 个大小不同的 gzip 文件,其中一些是 1 kb,其中一些是 10gb,如果我要在 spark 中加载它会发生什么?
我应该在我的情况下使用 gzip 还是任何其他压缩?如果是,那为什么?
还有性能上有什么区别
CASE1:如果我有一个非常大的(10gb)gzip 文件,然后我将它加载到 spark 中并运行计数
CASE2:如果我有一些可拆分(bzip2)相同大小的文件,然后将其加载到 spark 中并运行计数