我计划一个 hdfs 系统,它将为数字存储库(Fedora Commons)托管图像文件(几 Mb 到 200mb)。我从另一个 stackoverflow 帖子中发现,CombineFileInputFormat 可用于创建由多个输入文件组成的输入拆分。这种方法可以用于图像或pdf吗?在地图任务中,我想完整地处理单个文件,即分别处理输入拆分中的每个图像。
我知道小文件问题,这对我来说不是问题。
我想使用 CombineFileInputFormat 来避免 Mapper 任务设置/清理开销和数据局部性保留。