1

我们正在研究 POC,以确定哪种压缩技术更适合用于以压缩格式保存文件,并从压缩格式中获得更好的性能。我们有 4 种格式 *.gz、*.zlib、*.snappy 和 *.lz4。

我们发现 *.gz 和 *.zlib 具有更好的压缩比,但它们在读取压缩文件时存在性能问题,因为这些文件不可拆分且 Mappers 的数量,reducers 始终为 1。Hive 0.14 默认接受这些格式。

但我们想为我们的文本文件测试其他压缩技术,如 *.lz4、*.lzo 和 snappy

任何人都可以帮助我如何配置我的配置单元以读取在 *.lzo、snappy 和 *.lz4 以及 Avro 中压缩的输入文件。

这些压缩技术是否存在于 hive 0.14 或者我是否需要上传这些 *.jar(我是 .NET Guys 不知道 java)并使用 Serde 进行序列化和反序列化。

任何人都可以帮助我 Hive 默认是否接受 *.lzo、*.snappy 和 *.lz4 和 avro 等文件格式来读取这些压缩文件,我是否需要配置 hive 来读取这些文件格式。在读取压缩文件格式时,我正在寻找最佳性能。可以在压缩比上妥协,但应该有更好的性能读取。

4

0 回答 0