0

我想对一些(图形)数据库进行基准测试并寻找一些大而复杂的数据集。数据集的大小应介于 2 TB 和 5 TB 之间。你知道任何满足这些标准的样本数据集(可能是开放的政府数据或科学数据)吗?

4

1 回答 1

2

这些应该符合您的要求

  • 1000 Genomes项目提供260 TB 的人类基因组数据
  • 互联网档案馆正在提供 80 TB的网络爬虫供研究
  • 几年前,TREC 会议提供了ClueWeb09数据集。您必须签署协议并支付一笔不菲的费用(最高 610 美元)来支付运动鞋网数据传输费用。压缩后的数据约为 5 TB。
  • ClueWeb12现在可用,Freebase 注释 FACC1 也可用
  • 印第安纳大学的 CNetS 提供 2.5 TB 的点击数据集
  • ICWSM 为他们的2011 年会议提供了大量博客文章。您必须注册(实际表格,而不是在线表格),但它是免费的。压缩后的大小约为 2.1 TB。
  • Proteome Commons 提供了几个大型数据集。最大的个人基因组计划是 1.1 TB。

还有其他几个大小超过 100 GB。

于 2014-07-24T15:28:51.417 回答