我正在寻找一些大型公共数据集,特别是:
已匿名化的大型 Web 服务器日志示例。
用于数据库性能基准测试的数据集。
任何其他大型公共数据集的链接将不胜感激。我已经了解亚马逊的公共数据集: http ://aws.amazon.com/publicdatasets/
我正在寻找一些大型公共数据集,特别是:
已匿名化的大型 Web 服务器日志示例。
用于数据库性能基准测试的数据集。
任何其他大型公共数据集的链接将不胜感激。我已经了解亚马逊的公共数据集: http ://aws.amazon.com/publicdatasets/
1. 已匿名化的大型 Web 服务器日志示例。
这些工作开始:
可用的数据集比这些多得多(请参阅其他答案的范围),但这是满足您原始标准的最低目标。作为奖励,如果您有他们可能知道的特定需求,他们会提供联系链接。
2. 用于数据库性能基准测试的数据集。
这听起来像是用词不当,因为您要求的是描述定义明确的 算法 问题的经验数据集。具体来说,听起来您正在尝试查找可用于实时测试和基准测试各种数据库系统的数据集,使用定义明确的规范化关系数据,这些数据可用作一组测试用例来确定最有效的解决方案,满足您的需求。
我不同意这种做法。与其寻找一连串的数据库系统及其固定实现,不如探索这些系统的算法 保证作为您的第一个停靠点。一旦您确定了满足您需求的算法约束,您就可以磨练一组罐头解决方案,您可以对这些解决方案的效率进行基准测试,例如,索引、排序、搜索、插入、删除和检索。
Wikipedia 提供了一篇关于数据库测试概念的简短文章,您可以使用它来确定和编写测试用例以进行基准测试。例如,您可以使用JDBC和JDBC Benchmark等不可知的数据访问接口来确定每个操作的相对时间。从这里,您可以找到正确的解决方案。
简而言之,首先进行研究以确定数据库保证。一旦确定了一组候选解决方案,您可以通过测试(或以其他方式确定)每个所需操作的恒定时间性能来从中选择。
基于Quora 的回答和我在研究中的个人收藏,在 GitHub 上创建并更新了一个awesome-public-datasets存储库:
以下是此列表的快照版本。如需最新列表,请访问Github:
此公共数据源列表是从博客、答案和用户响应中收集和整理的。下面列出的大多数数据集都是免费的,但也有一些不是。该列表来自https://github.com/caesar0301/awesome-public-datasets。
这里有几个。玩得开心。
http://archive.ics.uci.edu/ml/
http://aws.amazon.com/datasets?_encoding=UTF8&jiveRedirect=1
http://gettingpastgo.socrata.com
http://books.google.com/ngrams/
http://medihal.archives-ouvertes.fr
http://timetric.com/public-data/
http://www.dartmouthatlas.org/
只是一个想法:
好吧,对于 Web 服务器日志,您总是可以按照您需要的格式生成它们。如果您要针对它测试代码等,则必须针对您要存储/解析的字段进行定制。
对于用于数据库性能基准测试的数据集,您可能希望查看可以为您生成数据的工具。红门有一个很棒的,钱不多。
Google Fusion Tables 有一些。
这里也提供数据集。
http://Quandl.com拥有从互联网上收集的超过 1000 万个数据集。这个资源的伟大之处在于它提供了一种访问所有数据的单一方式。该站点有一个免费的 Excel 插件,或者有 R、Python、Ruby 等的库。
Kaggle.com 经常遇到数据挖掘挑战。这些数据集涵盖了广泛的领域:从医疗保健提供者数据到信用历史信息。也许那里有你所追求的东西。
好吧,这个是新的,背后有一个挑战:
也许一些数据库用作人脸识别算法的训练集:face-rec.org
我很惊讶没有人提到 Google N-Grams。有关 N-Gram 的更多信息,请访问 http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html