0

我的 cascalog EMR 作业在 S3 存储桶上生成了数千个小文件。它生成的文件数量与我使用的减速器数量相同。转储所有这些小文件需要几分钟时间。我想知道是否有办法在 S3 上连接它们以便我可以快速转储它们?

谢谢

4

1 回答 1

0

这个问题有几个解决方案——这是我使用的一个:

https://github.com/nathanmarz/dfs-datastores/blob/develop/dfs-datastores/src/main/java/com/backtype/hadoop/Consolidator.java

于 2013-04-24T05:40:24.193 回答