1

我有一个基于文本的压缩日志文件目录,每个文件都包含许多记录。在旧版本的 Hadoop 中,我将扩展MultiFileInputFormat以返回RecordReader解压缩日志文件并从那里继续的自定义。但我正在尝试使用 Hadoop 0.20.2。

在 Hadoop 0.20.2 文档中,我注意到MultiFileInputFormat不推荐使用CombineFileInputFormat. 但要扩展CombineFileInputFormat,我必须使用已弃用的类JobConfInputSplit. 什么是现代的等价物MultiFileInputFormat,或者从文件目录中获取记录的现代方式?

4

1 回答 1

2

MultiFileInputFormat 的现代等价物或从文件目录获取记录的现代方式是什么?

oahmapred.* 具有旧 API,而 oahmapreduce.* 是新 API。某些输入/输出格式尚未迁移到新 API。MultiFileInputFormat/CombineFileInputFormat 尚未迁移到 20.2 中的新 API。我记得打开了一个 JIRA 来迁移丢失的格式,但我不记得 Jira #.

但要扩展 CombineFileInputFormat,我必须使用已弃用的类 JobConf 和 InputSplit。

现在应该可以使用旧的 API。在 Apache 论坛中查看此响应。我不确定停止支持旧 API 的确切计划。我不认为很多人已经开始使用新的 API,所以我认为它会在可预见的未来得到支持。

于 2012-06-29T04:48:02.623 回答