java - InputFormat在处理自定义文件格式时应该如何编码？

Question

虽然这是一个更通用的问题，但我在这里找不到关于特定情况的详细帮助。我有大量的大文件（每个平均 2GB）。这些文件包含以自定义格式编码的条目，必须由另一个库读取才能解析为单独的条目。现在我希望使用 MapReduce 来解析这些文件，但是默认的 InputFormat 和 InputSplit 会逐行处理文件，这不是我想要的。似乎我必须指定如何拆分文件（每个拆分应该包含一些条目）以及如何生成记录（每个条目应该映射到一个键/值>对）。

为了实现这一目标，我应该重写哪些方法？

score 0 · Accepted Answer

这可以通过为此输入文件编写自定义 InputFormat 来完成 1. 您应该设置拆分的开始和结束 1.1 您可以设置行的开始和行的结束 2. 记录阅读器split 读取拆分内的记录。

下面是一个读取 XML 的示例。这应该让你开始。 XML 文件处理

java - InputFormat在处理自定义文件格式时应该如何编码？

1 回答 1

Related

Reference