Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我的 cascalog EMR 作业在 S3 存储桶上生成了数千个小文件。它生成的文件数量与我使用的减速器数量相同。转储所有这些小文件需要几分钟时间。我想知道是否有办法在 S3 上连接它们以便我可以快速转储它们?
谢谢
炕
这个问题有几个解决方案——这是我使用的一个:
https://github.com/nathanmarz/dfs-datastores/blob/develop/dfs-datastores/src/main/java/com/backtype/hadoop/Consolidator.java