apache-spark - 如何将大量较小的文件从 EMR (Hdfs) 复制到 S3 存储桶？

问问题 2020-05-31T11:18:45.463

439 次

我有一个包含以下详细信息的大型 csv 文件：

total records: 20 million
total columns: 45
total file size: 8 GB

我正在尝试在 AWS EMR 上使用 Apache Spark（分布式计算引擎）处理这个 csv 文件。我正在根据其中一个 Timestamp数据类型的列对这个 csv 文件进行分区。

Spark 最终创建了近 120 万个分区文件夹，每个文件夹下都有一个输出 .orc 文件，大小在 0 到 5 KB 之间。所有这些文件夹/文件都由 Spark 在 EMR 中的 HDFS 上写入。

我们需要将这些大量较小的文件从 EMR(HDFS) 复制到 S3 存储桶，我使用了 s3-dist-cp，它在近 3-4 分钟内成功复制了它们。

这是使用 s3-dist-cp 命令实用程序复制大量小文件的最佳做法吗？还是有其他替代方法？

0 回答 0