3

我需要将大量小文件从一个 S3 存储桶复制到另一个存储桶。我正在使用 AWS 提供的 S3-Dist-Cp 命令。

s3-dist-cp --src=s3://some-bucket/ --dest=s3://another-bucket/ --groupBy=<some-pattern> --targetSize=<size> --deleteOnSuccess

现在,这个命令的问题是复制所有小文件并合并它们需要很长时间。

注意 - 源存储桶正在通过其他工作不断写入新文件,我认为 s3-dist-cp 永远不会捕获最后一个文件。

这个解决方案有什么解决方法吗?Spark 作业将使用目标存储桶来处理这些文件。

4

0 回答 0