0

假设我有一个 MapReduce 作业,它正在创建一个输出文件part-00000,并且在完成此作业后还有一个作业正在运行。

如何将分布式缓存中第一个作业的输出文件用于第二个作业。

4

1 回答 1

3

以下步骤可能会对您有所帮助,

  • 将第一个作业的输出目录路径传递给第二个作业的 Driver 类。

  • 使用路径过滤器列出以part-*. 请参阅以下代码片段了解您的第二个作业驱动程序类,

        FileSystem fs = FileSystem.get(conf);
        FileStatus[] fileList = fs.listStatus(new Path("1st job o/p path") , 
                                   new PathFilter(){
                                         @Override public boolean accept(Path path){
                                                return path.getName().startsWith("part-");
                                         } 
                                    } );
    
  • 遍历每个part-*文件并将其添加到分发缓存。

        for(int i=0; i < fileList.length;i++){ 
                 DistributedCache.addCacheFile(new URI(fileList[i].getPath().toUri()));
        }
    
于 2015-05-14T05:56:37.067 回答