2

我是 Hadoop 新手。我需要使用 java 中的 mapreduce 程序解析一个小的 xml 文件。我正在使用 hadoop 1.0.4 说我的 xml 文件是

<configuration>
<property>
 <name>adv</name>
 <value>a</value>
 <dup>school</dup>
</property>
<property>
 <name>aghy</name>
 <value>a</value>
 <dup>bk</dup>
</property>
</configuration>

我需要这样的输出 adv 1 a 2 aghy 1 school 1 bk 1

我如何编辑代码https://github.com/studhadoop/xmlparsing-hadoop/blob/master/XmlParser11.java。任何工作的想法。请帮帮我。

4

1 回答 1

1

你需要几件事:

  • 一种处理XML文件的输入格式,建议你看看Mahout的 XMLInputFormat
  • 传递给映射器(SAX 或 DOM)的 XML 字符串解析器,可能定义一些要绑定的 JAXB 对象

还有一些有用的链接:

于 2013-03-19T11:13:09.183 回答