我确实有很多图像文件并且需要将它们存储在 HDFS 中,为了避免小文件问题,我计划使用序列文件存储我的图像文件。
我的问题是我需要创建一个 MapReduce 程序,它只处理这些文件的选择,如果我只打算处理一些文件,我认为从 SequenceFile 读取所有图像内容不是一个好主意它们,还可以添加更多图像,如果我为每组图像创建一个新的 SequenceFile,我怎么知道哪个 SequenceFile 包含我需要处理的图像?万一我知道在输入映射器之前手动过滤图像会让人不知所措。
请指教。谢谢!