你知道任何免费/低成本的大型数据集来试验 Hadoop 吗?任何相关的指针/链接表示赞赏。
偏爱:
至少 1 GB 的数据。
网络服务器的生产日志数据。
到目前为止我发现的很少:
我们也可以运行我们自己的爬虫来从维基百科等网站收集数据吗?任何有关如何执行此操作的指示也值得赞赏。
你知道任何免费/低成本的大型数据集来试验 Hadoop 吗?任何相关的指针/链接表示赞赏。
偏爱:
至少 1 GB 的数据。
网络服务器的生产日志数据。
到目前为止我发现的很少:
我们也可以运行我们自己的爬虫来从维基百科等网站收集数据吗?任何有关如何执行此操作的指示也值得赞赏。
一个明显的来源:堆栈溢出三部曲数据转储。这些在知识共享许可下免费提供。
这是用于机器学习的 189 个数据集的集合(这是 hadoop g最好的应用程序之一): http: //archive.ics.uci.edu/ml/datasets.html
它不是日志文件,但也许您可以使用 OpenStreetMap 中的行星文件:http ://wiki.openstreetmap.org/wiki/Planet.osm
CC 许可证,约 160 GB(未打包)
每个大陆也有较小的文件:http ://wiki.openstreetmap.org/wiki/World