0

我正在尝试使用 AWS EMR 上的S3DistCp工具将多个文件(1.txt、2.txt、3.txt)合并到一个 gzip 文件中。我正在使用 groupBy 标志。现在,输出看起来像是源文件按名称以相反顺序串联起来的。

所以结果的内容顺序是 3.txt、2.txt 和 1.txt。

这是设计的方式吗?有没有办法允许以创建文件的相同顺序(按创建时间)进行连接?

4

1 回答 1

0

是的,这似乎是自 s3-dist-cp 推出以来的设计。每个 s3-dist-cp 作业都会从 --src 位置创建一个清单文件。

要解决此问题,您可以:

  1. 使用 --outputManifest 创建一个。
  2. 然后修改此文件以颠倒顺序。
  3. 在复制操作期间提供此文件 --copyFromManifest 以实现您的目标。

https://docs.aws.amazon.com/emr/latest/ReleaseGuide/UsingEMR_s3distcp.html

于 2018-04-13T23:59:32.233 回答