我有一个基于文本的压缩日志文件目录,每个文件都包含许多记录。在旧版本的 Hadoop 中,我将扩展MultiFileInputFormat
以返回RecordReader
解压缩日志文件并从那里继续的自定义。但我正在尝试使用 Hadoop 0.20.2。
在 Hadoop 0.20.2 文档中,我注意到MultiFileInputFormat
不推荐使用CombineFileInputFormat
. 但要扩展CombineFileInputFormat
,我必须使用已弃用的类JobConf
和InputSplit
. 什么是现代的等价物MultiFileInputFormat
,或者从文件目录中获取记录的现代方式?