我正在尝试为我的 spark 应用程序选择正确的文件交换格式。我在 Kubernetes 上使用Spark 2.4.7
+ 。Haddop 2.10
我的应用程序从 S3 下载 CSV 文件并进行处理。该文件由第 3 方公司提供。
我正在考虑让他们使用lz4
,lzo
或其他可拆分压缩。但是,我可以看到命令行工具文件格式与 Hadooplz4
或lzo
编解码器不兼容(我试过lzop
和lz4
cli)
您是否知道任何 CLI 工具允许以 Hadoop 编解码器可以理解的格式准备 lz4 或 lzo 压缩文件?