hadoop - 为 Hadoop 下载大数据

亚马逊上有可用的公共数据集： http ://aws.amazon.com/publicdatasets/
我建议考虑在那里运行演示集群 - 从而节省下载。
Common Crawl 也有很好的 crowned web 数据集，它也可以在 amazon s3 上找到。http://commoncrawl.org/

score 10 · Accepted Answer

如果您关注 Wikipedia page view statistics，那么这可能会有所帮助。您可以下载从 2007 年到当前日期的 pagecount 文件。只是为了了解文件的大小，一天 1.9 GB（这里我选择 2012-05-01）分布在 24 个文件中。

目前，31 个国家/地区拥有以各种格式提供公共数据的网站，http://www.data.gov/opendatasites。此外，世界银行在http://data.worldbank.org/data-catalog上提供数据

score 3 · Accepted Answer

如果您对国家指标感兴趣，我发现的最佳来源是 worldbank.org。他们提供的数据可以导出为 CSV，这使得在 Hadoop 中使用变得非常容易。如果您使用的是 .NET，我写了一篇博文http://ryanlovessoftware.blogspot.ro/2014/02/creating-hadoop-framework-for-analysing.html，您可以在其中查看数据的外观，如果您下载来自 gidhub https://github.com/ryan-popa/Hadoop-Analysis的代码，你已经有了字符串解析方法。

score 3 · Accepted Answer

“2012 年互联网人口普查”怎么样，通过对整个互联网进行分布式扫描收集的数据：

整个数据为 7TB，（显然）只能通过 torrent 获得。

score 0 · Accepted Answer

生成数据可能比下载和放置数据要快。这样做的好处是让您可以控制问题域并让您的演示对观看的人有意义。

7 回答 7