0

我计划一个 hdfs 系统,它将为数字存储库(Fedora Commons)托管图像文件(几 Mb​​ 到 200mb)。我从另一个 stackoverflow 帖子中发现,CombineFileInputFormat 可用于创建由多个输入文件组成的输入拆分。这种方法可以用于图像或pdf吗?在地图任务中,我想完整地处理单个文件,即分别处理输入拆分中的每个图像。

我知道小文件问题,这对我来说不是问题。

我想使用 CombineFileInputFormat 来避免 Mapper 任务设置/清理开销和数据局部性保留。

4

1 回答 1

0

如果你想在 Hadoop 中处理图像,我只能推荐使用HIPI,它应该可以让你做你需要的事情。

否则,当您说要完整处理单个文件时,我认为您不能使用传统的输入格式来执行此操作,因为即使使用CombineFileInputFormat,您也无法保证拆分中的内容恰好是 1 张图像。

您还可以考虑的一种方法是输入一个包含图像的 URL/位置的文件(例如,您可以将它们放在 Amazon S3 中),并确保您拥有与图像一样多的映射器,然后每个映射任务将是能够处理单个图像。不久前我做过类似的事情,它工作正常。

于 2013-02-16T17:59:00.563 回答