resources - 免费的大型数据集以试验 Hadoop

Question

你知道任何免费/低成本的大型数据集来试验 Hadoop 吗？任何相关的指针/链接表示赞赏。

偏爱：

到目前为止我发现的很少：

我们也可以运行我们自己的爬虫来从维基百科等网站收集数据吗？任何有关如何执行此操作的指示也值得赞赏。

score 11 · Accepted Answer

关于您关于爬行和维基百科的问题的几点。

您已链接到维基百科数据转储，您可以使用 UMD 的Cloud9项目在 Hadoop 中处理这些数据。

他们对此有一个页面：与维基百科一起工作

要添加到列表中的另一个数据源是：

使用爬虫生成数据应该在关于 Hadoop/MapReduce 的单独问题中发布，我会说。

score 10 · Accepted Answer

一个明显的来源：堆栈溢出三部曲数据转储。这些在知识共享许可下免费提供。

score 7 · Accepted Answer

这是用于机器学习的 189 个数据集的集合（这是 hadoop g最好的应用程序之一）： http: //archive.ics.uci.edu/ml/datasets.html

score 6 · Accepted Answer

它不是日志文件，但也许您可以使用 OpenStreetMap 中的行星文件：http ://wiki.openstreetmap.org/wiki/Planet.osm

CC 许可证，约 160 GB（未打包）

4 回答 4