我正在尝试使用 s3-distcp 将数据从 EMR 集群复制到 S3。我可以将减速器的数量指定为大于默认值以加快我的流程吗?
问问题
896 次
2 回答
4
要设置减速器的数量,您可以使用mapreduce.job.reduces
类似于以下的属性:
s3-dist-cp -Dmapreduce.job.reduces=10 --src hdfs://path/to/data/ --dest s3://path/to/s3/
于 2019-07-13T06:09:02.307 回答
0
使用 S3DistCp,您可以有效地将大量数据从 Amazon S3 复制到 HDFS 中,并由 Amazon EMR 集群中的后续步骤进行处理。
您可以通过将 S3DistCp 作为步骤添加到现有 EMR 集群中来调用它。可以在启动时将步骤添加到集群,也可以使用控制台、AWS CLI 或 API 将步骤添加到正在运行的集群。
因此,您可以在 EMR 集群创建期间控制工作人员的数量,或者您可以调整现有集群的大小。您可以在EMR 文档中查看确切的步骤。
于 2019-07-07T08:50:27.793 回答