只是想知道是否可以使用 s3-dist-cp 工具来合并镶木地板文件(快速压缩)。我尝试使用“--groupBy”和“--targetSize”选项,它确实将小文件合并成更大的文件。但是我无法在 Spark 或 AWS Athena 中读取它们。在 aws athena 中,我收到以下错误:
HIVE_CURSOR_ERROR: Expected 246379 values in column chunk at s3://my_analytics/parquet/auctions/region=us/year=2017/month=1/day=1/output123 offset 4 but got 247604 values instead over 1 pages ending at file offset 39
This query ran against the "randomlogdatabase" database, unless qualified by the query. Please post the error message on our forum or contact customer support with Query Id: 4ff77c55-3b69-414d-8fd9-a3d135f5ff2f.
任何帮助表示赞赏。