我有 1000 个文件要处理。每个文件由 1000 个连接在一起的 XML 文件组成。
我想使用 Hadoop 分别拆分每个 XML 文件。使用 Hadoop 执行此操作的好方法是什么?
注意:我完全是 Hadoop 新手。我计划使用 Amazon EMR。
我有 1000 个文件要处理。每个文件由 1000 个连接在一起的 XML 文件组成。
我想使用 Hadoop 分别拆分每个 XML 文件。使用 Hadoop 执行此操作的好方法是什么?
注意:我完全是 Hadoop 新手。我计划使用 Amazon EMR。
查看Mahout 的 XmlInputFormat。遗憾的是,这是在 Mahout 中而不是在核心发行版中。
连接的 XML 文件是否至少采用相同的格式?如果是这样,您将START_TAG_KEY
和设置END_TAG_KEY
为每个文件的根目录。每个文件将Text
在map
. 然后,您可以使用您最喜欢的 Java XML 解析器来完成这项工作。