我将数据作为 utf-8 编码的 json 文件存储在 S3 中,并使用 snappy/lz4 压缩。我想使用 Spark 来读取/处理这些数据,但 Spark 似乎需要文件名后缀( .lz4
, .snappy
) 才能理解压缩方案。
问题是我无法控制文件的命名方式——它们不会用这个后缀编写。重命名所有此类文件以包含诸如后缀之类的文件也太昂贵了。
spark有什么办法可以正确读取这些JSON文件吗?对于 parquet 编码文件'parquet.compression' = 'snappy'
,Hive Metastore 中有一个,它似乎解决了 parquet 文件的这个问题。文本文件有类似的东西吗?