1

虽然这是一个更通用的问题,但我在这里找不到关于特定情况的详细帮助。我有大量的大文件(每个平均 2GB)。这些文件包含以自定义格式编码的条目,必须由另一个库读取才能解析为单独的条目。现在我希望使用 MapReduce 来解析这些文件,但是默认的 InputFormat 和 InputSplit 会逐行处理文件,这不是我想要的。似乎我必须指定如何拆分文件(每个拆分应该包含一些条目)以及如何生成记录(每个条目应该映射到一个键/值>对)。

为了实现这一目标,我应该重写哪些方法?

4

1 回答 1

0

这可以通过为此输入文件编写自定义 InputFormat 来完成 1. 您应该设置拆分的开始和结束 1.1 您可以设置行的开始和行的结束 2. 记录阅读器split 读取拆分内的记录。

下面是一个读取 XML 的示例。这应该让你开始。 XML 文件处理

于 2015-02-11T02:48:21.367 回答