4

I am trying to be familiar with Hadoop-MapReduce. After studying theoratical knowledge on this concepts, I want to do practise on them.

However, I could not find small data sets ( up to 3 Gb ) for this technology. Where can I find data sets in order to do practise ?

OR, How can I do practise Hadoop-MapReduce ? In other words, are there any tutorial or website which offers exercise ?

4

3 回答 3

7

您可以下载和使用的可公开访问的数据集。下面是几个例子。

http://www.netflixprize.com/index — 作为竞赛的一部分,它发布了一组用户评分数据,以挑战人们开发更好的推荐算法。未压缩的数据为2 GB+。它包含来自 480 K 用户对 17 K 电影的 100 M+ 电影评分。

http://aws.amazon.com/publicdatasets/ — 例如,其中一个生物数据集是大约 550 GB 的带注释的人类基因组数据。在经济学下,您可以找到数据集,例如 2000 美国人口普查(大约 200 GB)。

http://boston.lti.cs.cmu.edu/Data/clueweb09/ — 卡内基梅隆大学语言技术研究所发布了 ClueWeb09 数据集以帮助进行大规模网络研究。这是对 10 种语言的十亿网页的抓取。未压缩的数据集占用 25 TB。

于 2012-10-16T14:29:50.130 回答
5

为什么不自己创建一些数据集?

一个非常简单的事情是用数百万个随机数填充一个文件,然后使用 Hadoop 查找重复项、三元组、素数、因子中具有重复项的数字等等。

当然,这并不像寻找常见的 facebook 朋友那么有趣,但获得一些 Hadoop 实践就足够了。

于 2012-10-16T13:11:53.870 回答
3

或者,我该如何练习 Hadoop-MapReduce ?换句话说,有没有提供锻炼的教程或网站?

以下是一些入门的玩具问题。还要检查Data-Intensive Text Processing with MapReduce,它有一些算法的伪代码,如在 MapReduce 中实现的页面排名、连接、索引。

以下是随时间收集的一些公共数据集。你可能不得不挖掘小的。

http://wiki.gephi.org/index.php/Datasets
为 Hadoop 下载大数据
http://datamob.org/datasets
http://konect.uni-koblenz.de/
http://snap.stanford.edu /data/
http://archive.ics.uci.edu/ml/
https://bitly.com/bundles/hmason/1
http://www.inside-r.org/howto/finding-data-internet
https ://docs.google.com/document/pub?id=1CNBmPiuvcU8gKTMvTQStIbTZcO_CTLMvPxxBrs0hHCg
http://ftp3.ncdc.noaa.gov/pub/data/noaa/1990/
http://data.cityofsantacruz.com/

于 2012-10-16T14:49:50.917 回答