1

我使用 hadoop 1.1.1。在处理 XML 文档时,我使用MAHOUTXmlInputFormat中的现有文件。很明显,应该分配。这种过程适用于这些类型的数据(同质):START_TAGEND_TAG

<lib>
    <book> ... </book>
    <book> ... </book>
    <book> ... </book>
    ...
</lib>

根据我所说,我分配START_TAG=<book>and END_TAG=</book>。如果文档或数据采用以下形式(异构*):

文件 1:

<lib>
    <book> ... </book>
    <article> ... </article>
    <journal> ... </journal>
    <www> ... </www>
    ...
</lib>

文件 2:

<Doc>
    <paper> ... </paper>
    <white_paper> ... </white_paper>
    <report> ... </report>
    <booklet> ... </booklet>
    ...
</Doc>

我怎样才能分配START_TAGEND_TAG?hadoop中如何处理这种数据?

非常感谢

4

1 回答 1

0

全局本体可用于动态定义不同文档类型使用的开始和结束标记。在处理异构系统时开发全局本体应该始终是集成这些系统时的优先事项。

于 2013-08-06T21:05:19.063 回答