1

我有 1000 个文件要处理。每个文件由 1000 个连接在一起的 XML 文件组成。

我想使用 Hadoop 分别拆分每个 XML 文件。使用 Hadoop 执行此操作的好方法是什么?

注意:我完全是 Hadoop 新手。我计划使用 Amazon EMR。

4

1 回答 1

3

查看Mahout 的 XmlInputFormat。遗憾的是,这是在 Mahout 中而不是在核心发行版中。

连接的 XML 文件是否至少采用相同的格式?如果是这样,您将START_TAG_KEY和设置END_TAG_KEY为每个文件的根目录。每个文件将Textmap. 然后,您可以使用您最喜欢的 Java XML 解析器来完成这项工作。

于 2012-05-15T01:58:13.527 回答