4

我如何获得维基百科页面的子集(比如 100MB)?我发现您可以将整个数据集作为 XML 获取,但它更像是 1 或 2 个演出;我不需要那么多。

我想尝试实现 map-reduce 算法。

话虽如此,如果我能从任何地方找到价值 100 兆的文本样本数据,那也很好。例如,Stack Overflow 数据库,如果可用的话,可能是一个不错的大小。我愿意接受建议。

编辑:任何不是种子的?我不能让那些工作。

4

7 回答 7

4

stackoverflow 数据库可供下载

于 2009-08-24T04:29:18.277 回答
3

克里斯,你可以写一个小程序来点击维基百科的“随机页面”链接,直到你得到 100MB 的网页:http ://en.wikipedia.org/wiki/Special:Random 。您可能希望丢弃可能获得的任何重复项,并且您可能还希望限制每分钟发出的请求数(尽管部分文章将由中间网络缓存提供,而不是由 Wikipedia 服务器提供)。但这应该很容易。

于 2009-08-24T05:39:29.320 回答
1

如果您想获取 stackoverflow 数据库的副本,您可以从知识共享数据转储中进行。

出于好奇,您将所有这些数据用于什么目的?

于 2009-08-24T04:31:41.453 回答
1

一种选择是下载整个 Wikipedia 转储,然后仅使用其中的一部分。您可以解压缩整个内容,然后使用简单的脚本将文件拆分为较小的文件(例如此处),或者如果您担心磁盘空间,您可以编写一个脚本来即时解压缩和拆分,并且然后你可以在你想要的任何阶段停止解压过程。Wikipedia Dump Reader可以根据您的灵感进行动态解压缩和处理,如果您对 python 感到满意(查看 mparser.py)。

如果您不想下载整个内容,则可以选择抓取。导出功能可能对此有所帮助,并且在这种情况下也建议使用wikipediabot 。

于 2009-08-24T05:06:41.350 回答
0

有很多维基百科转储可用。为什么要选择最大的(英文wiki)?维基新闻档案要小得多。

于 2011-02-24T08:44:10.870 回答
0

您可以使用网络爬虫抓取 100MB 的数据吗?

于 2009-08-24T05:08:59.223 回答
0

维基百科文章的一个较小子集包括“元”维基文章。这与整个文章数据集采用相同的 XML 格式,但更小(截至 2019 年 3 月约为 400MB),因此可用于软件验证(例如测试 GenSim 脚本)。

https://dumps.wikimedia.org/metawiki/latest/

您想查找任何带有-articles.xml.bz2后缀的文件。

于 2019-03-12T19:58:28.553 回答