xml - Hadoop中异构文档XML的处理

Question

我使用 hadoop 1.1.1。在处理 XML 文档时，我使用MAHOUTXmlInputFormat中的现有文件。很明显，应该分配。这种过程适用于这些类型的数据（同质）：START_TAGEND_TAG

<lib>
    <book> ... </book>
    <book> ... </book>
    <book> ... </book>
    ...
</lib>

根据我所说，我分配START_TAG=<book>and END_TAG=</book>。如果文档或数据采用以下形式（异构*）：

文件 1：

<lib>
    <book> ... </book>
    <article> ... </article>
    <journal> ... </journal>
    <www> ... </www>
    ...
</lib>

和文件 2：

<Doc>
    <paper> ... </paper>
    <white_paper> ... </white_paper>
    <report> ... </report>
    <booklet> ... </booklet>
    ...
</Doc>

我怎样才能分配START_TAG和END_TAG？hadoop中如何处理这种数据？

非常感谢

score 0 · Accepted Answer

全局本体可用于动态定义不同文档类型使用的开始和结束标记。在处理异构系统时开发全局本体应该始终是集成这些系统时的优先事项。

1 回答 1