Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有很多小文件,比如说超过 20000 个。
我想节省映射器初始化所花费的时间,所以是否可以只使用 500 个映射器,每个处理 40 个小文件作为其输入?
如果可能的话,我需要有关如何实现这种输入格式的指导,谢谢!
BTW,我知道我应该合并这些小文件,这一步也是需要的。
可以使用 CombineFileInputFormat。它存在于旧的和新的MR API 中。这是一篇关于如何使用它的不错的博客文章。