我正在尝试使用 AWS EMR 上的S3DistCp工具将多个文件(1.txt、2.txt、3.txt)合并到一个 gzip 文件中。我正在使用 groupBy 标志。现在,输出看起来像是源文件按名称以相反顺序串联起来的。
所以结果的内容顺序是 3.txt、2.txt 和 1.txt。
这是设计的方式吗?有没有办法允许以创建文件的相同顺序(按创建时间)进行连接?
是的,这似乎是自 s3-dist-cp 推出以来的设计。每个 s3-dist-cp 作业都会从 --src 位置创建一个清单文件。
要解决此问题,您可以:
https://docs.aws.amazon.com/emr/latest/ReleaseGuide/UsingEMR_s3distcp.html