0

我有一个包含以下详细信息的大型 csv 文件:

total records: 20 million
total columns: 45
total file size: 8 GB

我正在尝试在 AWS EMR 上使用 Apache Spark(分布式计算引擎)处理这个 csv 文件。我正在根据其中一个 Timestamp数据类型的列对这个 csv 文件进行分区。

Spark 最终创建了近 120 万个分区文件夹,每个文件夹下都有一个输出 .orc 文件,大小在 0 到 5 KB 之间。所有这些文件夹/文件都由 Spark 在 EMR 中的 HDFS 上写入。

我们需要将这些大量较小的文件从 EMR(HDFS) 复制到 S3 存储桶,我使用了 s3-dist-cp,它在近 3-4 分钟内成功复制了它们。

这是使用 s3-dist-cp 命令实用程序复制大量小文件的最佳做法吗?还是有其他替代方法?

4

0 回答 0