java - small data sets for Hadoop-MapReduce

Question

I am trying to be familiar with Hadoop-MapReduce. After studying theoratical knowledge on this concepts, I want to do practise on them.

However, I could not find small data sets ( up to 3 Gb ) for this technology. Where can I find data sets in order to do practise ?

OR, How can I do practise Hadoop-MapReduce ? In other words, are there any tutorial or website which offers exercise ?

score 7 · Accepted Answer

您可以下载和使用的可公开访问的数据集。下面是几个例子。

http://www.netflixprize.com/index — 作为竞赛的一部分，它发布了一组用户评分数据，以挑战人们开发更好的推荐算法。未压缩的数据为2 GB+。它包含来自 480 K 用户对 17 K 电影的 100 M+ 电影评分。

http://aws.amazon.com/publicdatasets/ — 例如，其中一个生物数据集是大约 550 GB 的带注释的人类基因组数据。在经济学下，您可以找到数据集，例如 2000 美国人口普查（大约 200 GB）。

http://boston.lti.cs.cmu.edu/Data/clueweb09/ — 卡内基梅隆大学语言技术研究所发布了 ClueWeb09 数据集以帮助进行大规模网络研究。这是对 10 种语言的十亿网页的抓取。未压缩的数据集占用 25 TB。

score 5 · Accepted Answer

为什么不自己创建一些数据集？

一个非常简单的事情是用数百万个随机数填充一个文件，然后使用 Hadoop 查找重复项、三元组、素数、因子中具有重复项的数字等等。

当然，这并不像寻找常见的 facebook 朋友那么有趣，但获得一些 Hadoop 实践就足够了。

score 3 · Accepted Answer

或者，我该如何练习 Hadoop-MapReduce ？换句话说，有没有提供锻炼的教程或网站？

以下是一些入门的玩具问题。还要检查Data-Intensive Text Processing with MapReduce，它有一些算法的伪代码，如在 MapReduce 中实现的页面排名、连接、索引。

以下是随时间收集的一些公共数据集。你可能不得不挖掘小的。

3 回答 3