我有一个基于文本的压缩日志文件目录,每个文件都包含许多记录。在旧版本的 Hadoop 中,我将扩展MultiFileInputFormat以返回RecordReader解压缩日志文件并从那里继续的自定义。但我正在尝试使用 Hadoop 0.20.2。
在 Hadoop 0.20.2 文档中,我注意到MultiFileInputFormat不推荐使用CombineFileInputFormat. 但要扩展CombineFileInputFormat,我必须使用已弃用的类JobConf和InputSplit. 什么是现代的等价物MultiFileInputFormat,或者从文件目录中获取记录的现代方式?