hadoop - 用于拆分 xml 文件的 hadoop 作业

Question

我有 1000 个文件要处理。每个文件由 1000 个连接在一起的 XML 文件组成。

我想使用 Hadoop 分别拆分每个 XML 文件。使用 Hadoop 执行此操作的好方法是什么？

注意：我完全是 Hadoop 新手。我计划使用 Amazon EMR。

score 3 · Accepted Answer

查看Mahout 的 XmlInputFormat。遗憾的是，这是在 Mahout 中而不是在核心发行版中。

连接的 XML 文件是否至少采用相同的格式？如果是这样，您将START_TAG_KEY和设置END_TAG_KEY为每个文件的根目录。每个文件将Text在map. 然后，您可以使用您最喜欢的 Java XML 解析器来完成这项工作。

1 回答 1