0

我是网络爬虫的新手。我有以下维基百科转储链接https://dumps.wikimedia.org/backup-index.html。我有一个文章标题列表。他们都是英文的。

我需要从给定的转储中下载这些文章及其讨论页。请让我知道从哪里开始。

4

1 回答 1

1

这在很大程度上取决于您的用例。您是否有一个相对较小的集合(比如说,几百个)要获取的页面?去 API,它可以给你 wikitext 和 HTML,而转储只会给你 wikitext。

如果您需要转储,或者只是想学习如何以最佳方式处理它们,https://en.wikipedia.org/wiki/Wikipedia:Database_download#How_to_use_multistream?可能是一个很好的学习材料。

于 2020-08-03T21:34:57.323 回答