1

如何创建将文件作为单个记录发送到映射器的自定义 FileInputFormat 请帮助我举一个使用自定义 FileInputFormat 的示例

4

1 回答 1

3

您想使用具有以下覆盖的自定义文件输入格式:

        @Override
        protected boolean isSplitable(JobContext context, Path filename) {
            return false;
        }

在 hadoop 源代码MultiFileWordCount中有一个这样的例子。在该示例中,您会将上述覆盖的“isSplitable”方法添加到“CustomInputFormat”以避免拆分。

这是如何将“isSplitable”合并到 MultiFileWordCount 示例中的要点;使用香草 hadoop api。

于 2013-03-19T19:19:33.677 回答