2

我有很多小文件,比如说超过 20000 个。

我想节省映射器初始化所花费的时间,所以是否可以只使用 500 个映射器,每个处理 40 个小文件作为其输入?

如果可能的话,我需要有关如何实现这种输入格式的指导,谢谢!

BTW,我知道我应该合并这些小文件,这一步也是需要的。

4

1 回答 1

3

可以使用 CombineFileInputFormat。它存在于的和的MR API 中。这是一篇关于如何使用它的不错的博客文章。

于 2012-07-13T09:02:42.963 回答