我使用 hadoop 1.1.1。在处理 XML 文档时,我使用MAHOUTXmlInputFormat
中的现有文件。很明显,应该分配。这种过程适用于这些类型的数据(同质):START_TAG
END_TAG
<lib>
<book> ... </book>
<book> ... </book>
<book> ... </book>
...
</lib>
根据我所说,我分配START_TAG=<book>
and END_TAG=</book>
。如果文档或数据采用以下形式(异构*):
文件 1:
<lib>
<book> ... </book>
<article> ... </article>
<journal> ... </journal>
<www> ... </www>
...
</lib>
和文件 2:
<Doc>
<paper> ... </paper>
<white_paper> ... </white_paper>
<report> ... </report>
<booklet> ... </booklet>
...
</Doc>
我怎样才能分配START_TAG
和END_TAG
?hadoop中如何处理这种数据?
非常感谢