java - 在 Hadoop 0.20.2 中解析日志目录

Question

我有一个基于文本的压缩日志文件目录，每个文件都包含许多记录。在旧版本的 Hadoop 中，我将扩展MultiFileInputFormat以返回RecordReader解压缩日志文件并从那里继续的自定义。但我正在尝试使用 Hadoop 0.20.2。

在 Hadoop 0.20.2 文档中，我注意到MultiFileInputFormat不推荐使用CombineFileInputFormat. 但要扩展CombineFileInputFormat，我必须使用已弃用的类JobConf和InputSplit. 什么是现代的等价物MultiFileInputFormat，或者从文件目录中获取记录的现代方式？

score 2 · Accepted Answer

MultiFileInputFormat 的现代等价物或从文件目录获取记录的现代方式是什么？

oahmapred.* 具有旧 API，而 oahmapreduce.* 是新 API。某些输入/输出格式尚未迁移到新 API。MultiFileInputFormat/CombineFileInputFormat 尚未迁移到 20.2 中的新 API。我记得打开了一个 JIRA 来迁移丢失的格式，但我不记得 Jira #.

但要扩展 CombineFileInputFormat，我必须使用已弃用的类 JobConf 和 InputSplit。

现在应该可以使用旧的 API。在 Apache 论坛中查看此响应。我不确定停止支持旧 API 的确切计划。我不认为很多人已经开始使用新的 API，所以我认为它会在可预见的未来得到支持。

java - 在 Hadoop 0.20.2 中解析日志目录

1 回答 1

Related

Reference