string-formatting - 如何爬取整个维基地图？

Question

我需要一个站点地图，它可以帮助人们和谷歌了解页面。我试过 WebSphinx 应用程序。

我意识到如果我将 wikipedia.org 作为起始 URL，它就不会进一步爬网。

因此，如何真正爬取整个维基百科？任何人都可以给一些指导吗？我是否需要专门去查找这些 URL 并放置多个起始 URL？

任何人都有关于usng WebSphinx API 教程的好网站的建议吗？

score 0 · Accepted Answer

爬行维基百科是个坏主意。它是数百 TB 的未压缩数据。我建议使用维基百科提供的各种转储进行离线爬行。在这里找到它们https://dumps.wikimedia.org/

您可以使用页面元信息、外部链接、跨维基链接和重定向数据库等为维基百科创建站点地图。

1 回答 1