我想知道前几年(2010-2019)是否有英文维基百科(enwiki)页面文章转储。
https://meta.wikimedia.org/wiki/Data_dump_torrents上的数据转储种子似乎在 2017 年之前的几年都没有转储。
我想知道前几年(2010-2019)是否有英文维基百科(enwiki)页面文章转储。
https://meta.wikimedia.org/wiki/Data_dump_torrents上的数据转储种子似乎在 2017 年之前的几年都没有转储。
实际上,您不需要它们!如果您需要页面的历史记录,只需下载history
名称中的转储即可。自维基百科诞生以来,它们都有所有修订版。您必须解析 wikitext 以获取元数据 - 另一方面,对于任何研究或实际用途,此类数据可能比旧转储更可靠。
您需要下载哪个转储取决于您的用例。您是否只需要修订元数据,并查看哪些用户何时贡献?stub-meta-history.xml 是你要走的路。你想拥有页面内容并解析所有内容吗?pages-meta-history 将是您的选择。但是,如果你想用 enwiki 解析这些转储,它真的很大,大约 14 TiB 在 2016 年 5 月,根据https://meta.wikimedia.org/wiki/Data_dumps/FAQ#How_big_are_the_en_wikipedia_dumps_uncompressed?,因为它包含所有维基百科,包括历史。