我需要一个大数据(超过 10GB)来运行 Hadoop 演示。谁知道哪里可以下载。请告诉我。
7 回答
我建议您从以下网站下载百万首歌曲数据集:
http://labrosa.ee.columbia.edu/millionsong/
Millions Songs Dataset 的最佳之处在于,您可以将 1GB(约 10000 首歌曲)、10GB、50GB 或约 300GB 的数据集下载到您的 Hadoop 集群并进行任何您想要的测试。我喜欢使用它,并且使用这个数据集学到了很多东西。
首先,您可以从 AZ 下载以任意一个字母开头的数据集,范围从 1GB 到 20GB。您也可以使用 Infochimp 网站:
http://www.infochimps.com/collections/million-songs
在我的以下博客之一中,我展示了如何下载 1GB 数据集并运行 Pig 脚本:
Tom White mentioned about a sample weather data set in his Book(Hadoop: the definitive guide).
http://hadoopbook.com/code.html
Data is available for more than 100 years.
I used wget
in linux to pull the data. For the year 2007 itself the data size is 27 GB.
It is hosted as an FTP
link. So, you can download with any FTP utility.
ftp://ftp.ncdc.noaa.gov/pub/data/noaa/
For complete details please check my blog:
http://myjourneythroughhadoop.blogspot.in/2013/07/how-to-download-weather-data-for-your.html
亚马逊上有可用的公共数据集: http ://aws.amazon.com/publicdatasets/
我建议考虑在那里运行演示集群 - 从而节省下载。
Common Crawl 也有很好的 crowned web 数据集,它也可以在 amazon s3 上找到。http://commoncrawl.org/
您可能会感兴趣的一篇文章“使用 Hadoop 分析使用 WikiHadoop 的完整 Wikipedia 转储文件”。
如果您关注 Wikipedia page view statistics,那么这可能会有所帮助。您可以下载从 2007 年到当前日期的 pagecount 文件。只是为了了解文件的大小,一天 1.9 GB(这里我选择 2012-05-01)分布在 24 个文件中。
目前,31 个国家/地区拥有以各种格式提供公共数据的网站,http://www.data.gov/opendatasites。此外,世界银行在http://data.worldbank.org/data-catalog上提供数据
如果您对国家指标感兴趣,我发现的最佳来源是 worldbank.org。他们提供的数据可以导出为 CSV,这使得在 Hadoop 中使用变得非常容易。如果您使用的是 .NET,我写了一篇博文http://ryanlovessoftware.blogspot.ro/2014/02/creating-hadoop-framework-for-analysing.html,您可以在其中查看数据的外观,如果您下载来自 gidhub https://github.com/ryan-popa/Hadoop-Analysis的代码,你已经有了字符串解析方法。
“2012 年互联网人口普查”怎么样,通过对整个互联网进行分布式扫描收集的数据:
公告:http ://seclists.org/fulldisclosure/2013/Mar/166
资料:http: //internetcensus2012.bitbucket.org/
整个数据为 7TB,(显然)只能通过 torrent 获得。
生成数据可能比下载和放置数据要快。这样做的好处是让您可以控制问题域并让您的演示对观看的人有意义。