我将使用 apache hadoop 对维基百科数据集的 pagerank 和倒排索引进行项目。我下载了整个 wiki 转储 - http://download.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 .它解压缩为单个 42 Gb .xml 文件。我想以某种方式处理此文件以获取适合在 pagerank 和倒排索引 map-reduce 算法中输入的数据。请帮忙!任何线索都会有所帮助。
问问题
1900 次
2 回答
0
你的问题对我来说不是很清楚。你需要什么样的想法?
首先要打你的是你将如何在你的 MR 工作中处理这个 xml 文件。MR 框架没有为 xml 文件提供任何内置的 InputFormat。为此,您可能想看看这个。
于 2013-07-02T18:52:29.287 回答
0
您需要编写自己的 Inputformat 来处理 XML。您还需要实现 RecordReader 以确保您的输入拆分具有完全形成的 XML 块,而不仅仅是单行。请参阅http://www.undercloud.org/?p=408。
于 2013-07-03T05:43:06.817 回答