hadoop - 在hadoop中使用维基百科数据集进行pagerank

Question

我将使用 apache hadoop 对维基百科数据集的 pagerank 和倒排索引进行项目。我下载了整个 wiki 转储 - http://download.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 .它解压缩为单个 42 Gb .xml 文件。我想以某种方式处理此文件以获取适合在 pagerank 和倒排索引 map-reduce 算法中输入的数据。请帮忙！任何线索都会有所帮助。

score 0 · Accepted Answer

你的问题对我来说不是很清楚。你需要什么样的想法？

首先要打你的是你将如何在你的 MR 工作中处理这个 xml 文件。MR 框架没有为 xml 文件提供任何内置的 InputFormat。为此，您可能想看看这个。

score 0 · Accepted Answer

您需要编写自己的 Inputformat 来处理 XML。您还需要实现 RecordReader 以确保您的输入拆分具有完全形成的 XML 块，而不仅仅是单行。请参阅http://www.undercloud.org/?p=408。

hadoop - 在hadoop中使用维基百科数据集进行pagerank

2 回答 2

Related

Reference