41

你知道任何免费/低成本的大型数据集来试验 Hadoop 吗?任何相关的指针/链接表示赞赏。

偏爱:

  • 至少 1 GB 的数据。

  • 网络服务器的生产日志数据。

到目前为止我发现的很少:

  1. 维基百科转储

  2. http://wiki.freebase.com/wiki/Data_dumps

  3. http://aws.amazon.com/publicdatasets/

我们也可以运行我们自己的爬虫来从维基百科等网站收集数据吗?任何有关如何执行此操作的指示也值得赞赏。

4

4 回答 4

11

关于您关于爬行和维基百科的问题的几点。

您已链接到维基百科数据转储,您可以使用 UMD 的Cloud9项目在 Hadoop 中处理这些数据。

他们对此有一个页面:与维基百科一起工作

要添加到列表中的另一个数据源是:

  • ClueWeb09 - 1 月至 2 月 9 日期间收集了 10 亿个网页。5TB 压缩。

使用爬虫生成数据应该在关于 Hadoop/MapReduce 的单独问题中发布,我会说。

于 2010-04-22T22:17:04.867 回答
10

一个明显的来源:堆栈溢出三部曲数据转储。这些在知识共享许可下免费提供。

于 2010-04-20T11:25:12.433 回答
7

这是用于机器学习的 189 个数据集的集合(这是 hadoop g最好的应用程序之一): http: //archive.ics.uci.edu/ml/datasets.html

于 2010-04-23T13:15:48.607 回答
6

它不是日志文件,但也许您可以使用 OpenStreetMap 中的行星文件:http ://wiki.openstreetmap.org/wiki/Planet.osm

CC 许可证,约 160 GB(未打包)

每个大陆也有较小的文件:http ://wiki.openstreetmap.org/wiki/World

于 2010-04-20T11:33:06.977 回答