wiki - 我如何获得维基百科页面的子集？

Question

我如何获得维基百科页面的子集（比如 100MB）？我发现您可以将整个数据集作为 XML 获取，但它更像是 1 或 2 个演出；我不需要那么多。

我想尝试实现 map-reduce 算法。

话虽如此，如果我能从任何地方找到价值 100 兆的文本样本数据，那也很好。例如，Stack Overflow 数据库，如果可用的话，可能是一个不错的大小。我愿意接受建议。

编辑：任何不是种子的？我不能让那些工作。

score 4 · Accepted Answer

4

stackoverflow 数据库可供下载。

于 2009-08-24T04:29:18.277 回答

score 3 · Accepted Answer

克里斯，你可以写一个小程序来点击维基百科的“随机页面”链接，直到你得到 100MB 的网页：http ://en.wikipedia.org/wiki/Special:Random 。您可能希望丢弃可能获得的任何重复项，并且您可能还希望限制每分钟发出的请求数（尽管部分文章将由中间网络缓存提供，而不是由 Wikipedia 服务器提供）。但这应该很容易。

score 1 · Accepted Answer

如果您想获取 stackoverflow 数据库的副本，您可以从知识共享数据转储中进行。

出于好奇，您将所有这些数据用于什么目的？

score 1 · Accepted Answer

一种选择是下载整个 Wikipedia 转储，然后仅使用其中的一部分。您可以解压缩整个内容，然后使用简单的脚本将文件拆分为较小的文件（例如此处），或者如果您担心磁盘空间，您可以编写一个脚本来即时解压缩和拆分，并且然后你可以在你想要的任何阶段停止解压过程。Wikipedia Dump Reader可以根据您的灵感进行动态解压缩和处理，如果您对 python 感到满意（查看 mparser.py）。

如果您不想下载整个内容，则可以选择抓取。导出功能可能对此有所帮助，并且在这种情况下也建议使用wikipediabot 。

score 0 · Accepted Answer

有很多维基百科转储可用。为什么要选择最大的（英文wiki）？维基新闻档案要小得多。

score 0 · Accepted Answer

0

您可以使用网络爬虫抓取 100MB 的数据吗？

于 2009-08-24T05:08:59.223 回答

score 0 · Accepted Answer

维基百科文章的一个较小子集包括“元”维基文章。这与整个文章数据集采用相同的 XML 格式，但更小（截至 2019 年 3 月约为 400MB），因此可用于软件验证（例如测试 GenSim 脚本）。

https://dumps.wikimedia.org/metawiki/latest/

您想查找任何带有-articles.xml.bz2后缀的文件。

wiki - 我如何获得维基百科页面的子集？

7 回答 7

Related

Reference