如何创建将文件作为单个记录发送到映射器的自定义 FileInputFormat 请帮助我举一个使用自定义 FileInputFormat 的示例
问问题
2238 次
1 回答
3
您想使用具有以下覆盖的自定义文件输入格式:
@Override
protected boolean isSplitable(JobContext context, Path filename) {
return false;
}
在 hadoop 源代码MultiFileWordCount中有一个这样的例子。在该示例中,您会将上述覆盖的“isSplitable”方法添加到“CustomInputFormat”以避免拆分。
这是如何将“isSplitable”合并到 MultiFileWordCount 示例中的要点;使用香草 hadoop api。
于 2013-03-19T19:19:33.677 回答