amazon-emr - 如何正确 EMR S3DistCp groupBy？

Question

我正在使用 aws .net sdk 向 EMR 运行 s3distcp 作业，以使用 --groupBy arg 连接文件夹中的所有文件。但是无论我尝试过什么“groupBy”arg，它总是失败，或者只是复制文件而不连接，就像在 arg 列表中没有指定 --groupBy 一样。

该文件夹中的文件是 spark saveAsTextFiles，命名如下：

部分-0000
部分-0001
部分-0002
...
...

step.HadoopJarStep = new HadoopJarStepConfig
            {
                Jar = "/usr/share/aws/emr/s3-dist-cp/lib/s3-dist-cp.jar",
                Args = new List<string>
                {
                    "--s3Endpoint=s3-eu-west-1.amazonaws.com",
                    "--src=s3://foo/spark/result/bar" ,
                    "--dest=s3://foo/spark/result-merged/bar",
                    "--groupBy=(part.*)",
                    "--targetSize=256"

                }
            };

score 12 · Accepted Answer

经过一整天的努力，最后我得到了它与下面的 groupKey arg 一起使用：

--groupBy=.*part.*(\w+)

但即使我添加--targetSize=1024到 args s3distcp 产生了 2,5MB - 3MB 文件。有人对此有任何想法吗？

** *更新 * **

这是将所有文件连接到一个文件中的 groupBy 子句，在他们自己的文件夹中：

.*/(\\w+)/.*

最后一个“/”在这里非常重要 --source="s3://foo/spark/result/"

“结果”文件夹中有一些文件夹：

s3://foo/spark/result/foo
s3://foo/spark/result/bar
s3://foo/spark/result/lorem
s3://foo/spark/result/ipsum

在上面的每个文件夹中都有数百个文件，例如：

part-0000
part-0001
part-0002

.*/(\\w+)/.*这个 group by 子句对每个文件夹中的每个文件进行分组，所以最后你为每个文件夹都有一个文件，文件夹名称为

s3://foo/spark/result-merged/foo/foo -> File
s3://foo/spark/result-merged/bar/bar -> File
s3://foo/spark/result-merged/lorem/lorem -> File
s3://foo/spark/result-merged/ipsum/ipsum -> File

所以，这对我来说是最后的工作命令：

s3-dist-cp --src s3://foo/spark/result/  --dest s3://foo/spark/results-merged --groupBy '.*/(\\w+)/.*' --targetSize 1024

谢谢。

amazon-emr - 如何正确 EMR S3DistCp groupBy？

1 回答 1

Related

Reference