1

我想知道前几年(2010-2019)是否有英文维基百科(enwiki)页面文章转储。

https://meta.wikimedia.org/wiki/Data_dump_torrents上的数据转储种子似乎在 2017 年之前的几年都没有转储。

4

2 回答 2

3

Internet Archive 有一些旧转储,并且转储页面包含有关一些非常旧的转储的信息。

于 2020-07-28T22:24:43.970 回答
2

实际上,您不需要它们!如果您需要页面的历史记录,只需下载history名称中的转储即可。自维基百科诞生以来,它们都有所有修订版。您必须解析 wikitext 以获取元数据 - 另一方面,对于任何研究或实际用途,此类数据可能比旧转储更可靠。

您需要下载哪个转储取决于您的用例。您是否只需要修订元数据,并查看哪些用户何时贡献?stub-meta-history.xml 是你要走的路。你想拥有页面内容并解析所有内容吗?pages-meta-history 将是您的选择。但是,如果你想用 enwiki 解析这些转储,它真的很大,大约 14 TiB 在 2016 年 5 月,根据https://meta.wikimedia.org/wiki/Data_dumps/FAQ#How_big_are_the_en_wikipedia_dumps_uncompressed?,因为它包含所有维基百科,包括历史。

于 2020-08-03T16:56:56.723 回答