我想对一些(图形)数据库进行基准测试并寻找一些大而复杂的数据集。数据集的大小应介于 2 TB 和 5 TB 之间。你知道任何满足这些标准的样本数据集(可能是开放的政府数据或科学数据)吗?
问问题
120 次
1 回答
2
这些应该符合您的要求
- 1000 Genomes项目提供260 TB 的人类基因组数据
- 互联网档案馆正在提供 80 TB的网络爬虫供研究
- 几年前,TREC 会议提供了ClueWeb09数据集。您必须签署协议并支付一笔不菲的费用(最高 610 美元)来支付运动鞋网数据传输费用。压缩后的数据约为 5 TB。
- ClueWeb12现在可用,Freebase 注释 FACC1 也可用
- 印第安纳大学的 CNetS 提供 2.5 TB 的点击数据集
- ICWSM 为他们的2011 年会议提供了大量博客文章。您必须注册(实际表格,而不是在线表格),但它是免费的。压缩后的大小约为 2.1 TB。
- Proteome Commons 提供了几个大型数据集。最大的个人基因组计划是 1.1 TB。
还有其他几个大小超过 100 GB。
于 2014-07-24T15:28:51.417 回答