问题 1:将输出文件写入不同的目录 - 您可以使用以下方法进行操作:
1. 使用 MultipleOutputs 类:
您能够使用 MultipleOutputs 创建多个命名输出文件,这真是太好了。如您所知,我们需要在您的驱动程序代码中添加它。
MultipleOutputs.addNamedOutput(job, "OutputFileName", OutputFormatClass, keyClass, valueClass);
API 提供了两种重载的写入方法来实现这一点。
multipleOutputs.write("OutputFileName", new Text(Key), new Text(Value));
现在,要将输出文件写入单独的输出目录,您需要使用带有额外参数的重载写入方法作为基本输出路径。
multipleOutputs.write("OutputFileName", new Text(key), new Text(value), baseOutputPath);
请记住在您的每个实现中更改您的 baseOutputPath。
2. 重命名/移动驱动类中的文件:
这可能是将输出写入多个目录的最简单的方法。使用多个输出并将所有输出文件写入单个输出目录。但是每个类别的文件名需要不同。
假设您要创建 3 组不同的输出文件,第一步是在驱动程序中注册命名的输出文件:
MultipleOutputs.addNamedOutput(job, "set1", OutputFormatClass, keyClass, valueClass);
MultipleOutputs.addNamedOutput(job, "set2", OutputFormatClass, keyClass, valueClass);
MultipleOutputs.addNamedOutput(job, "set3", OutputFormatClass, keyClass, valueClass);
此外,在驱动程序代码中创建不同的输出目录或所需的目录结构,以及实际的输出目录:
Path set1Path = new Path("/hdfsRoot/outputs/set1");
Path set2Path = new Path("/hdfsRoot/outputs/set2");
Path set3Path = new Path("/hdfsRoot/outputs/set3");
最后一个重要步骤是根据名称重命名输出文件。如果工作成功;
FileSystem fileSystem = FileSystem.get(new Configuration);
if (jobStatus == 0) {
// Get the output files from the actual output path
FileStatus outputfs[] = fileSystem.listStatus(outputPath);
// Iterate over all the files in the output path
for (int fileCounter = 0; fileCounter < outputfs.length; fileCounter++) {
// Based on each fileName rename the path.
if (outputfs[fileCounter].getPath().getName().contains("set1")) {
fileSystem.rename(outputfs[fileCounter].getPath(), new Path(set1Path+"/"+anyNewFileName));
} else if (outputfs[fileCounter].getPath().getName().contains("set2")) {
fileSystem.rename(outputfs[fileCounter].getPath(), new Path(set2Path+"/"+anyNewFileName));
} else if (outputfs[fileCounter].getPath().getName().contains("set3")) {
fileSystem.rename(outputfs[fileCounter].getPath(), new Path(set3Path+"/"+anyNewFileName));
}
}
}
注意:这不会给作业增加任何重大开销,因为我们只是将文件从一个目录移动到另一个目录。选择任何特定的方法取决于您的实施的性质。
总而言之,这种方法基本上将所有使用不同名称的输出文件写入同一个输出目录,当作业成功完成时,我们重命名基本输出路径并将文件移动到不同的输出目录。
问题 2:从输入文件夹中读取特定文件:
您绝对可以使用MultipleInputs类从目录中读取特定的输入文件。
根据您的输入路径/文件名,您可以将输入文件传递给相应的 Mapper 实现。
情况 1:如果所有输入文件都在一个目录中:
FileStatus inputfs[] = fileSystem.listStatus(inputPath);
for (int fileCounter = 0; fileCounter < inputfs.length; fileCounter++) {
if (inputfs[fileCounter].getPath().getName().contains("set1")) {
MultipleInputs.addInputPath(job, inputfs[fileCounter].getPath(), TextInputFormat.class, Set1Mapper.class);
} else if (inputfs[fileCounter].getPath().getName().contains("set2")) {
MultipleInputs.addInputPath(job, inputfs[fileCounter].getPath(), TextInputFormat.class, Set2Mapper.class);
} else if (inputfs[fileCounter].getPath().getName().contains("set3")) {
MultipleInputs.addInputPath(job, inputfs[fileCounter].getPath(), TextInputFormat.class, Set3Mapper.class);
}
}
情况 2:如果所有输入文件都不在一个目录中:
即使输入文件位于不同的目录中,我们基本上也可以使用上述相同的方法。遍历基本输入路径并检查文件路径名是否匹配标准。
或者,如果文件位于完全不同的位置,最简单的方法是单独添加到多个输入。
MultipleInputs.addInputPath(job, Set1_Path, TextInputFormat.class, Set1Mapper.class);
MultipleInputs.addInputPath(job, Set2_Path, TextInputFormat.class, Set2Mapper.class);
MultipleInputs.addInputPath(job, Set3_Path, TextInputFormat.class, Set3Mapper.class);
希望这可以帮助!谢谢你。