-1

我需要一个站点地图,它可以帮助人们和谷歌了解页面。我试过 WebSphinx 应用程序。

我意识到如果我将 wikipedia.org 作为起始 URL,它就不会进一步爬网。

因此,如何真正爬取整个维基百科?任何人都可以给一些指导吗?我是否需要专门去查找这些 URL 并放置多个起始 URL?

任何人都有关于usng WebSphinx API 教程的好网站的建议吗?

4

1 回答 1

0

爬行维基百科是个坏主意。它是数百 TB 的未压缩数据。我建议使用维基百科提供的各种转储进行离线爬行。在这里找到它们https://dumps.wikimedia.org/

您可以使用页面元信息、外部链接、跨维基链接和重定向数据库等为维基百科创建站点地图。

于 2015-07-10T23:59:55.890 回答