我需要一个站点地图,它可以帮助人们和谷歌了解页面。我试过 WebSphinx 应用程序。
我意识到如果我将 wikipedia.org 作为起始 URL,它就不会进一步爬网。
因此,如何真正爬取整个维基百科?任何人都可以给一些指导吗?我是否需要专门去查找这些 URL 并放置多个起始 URL?
任何人都有关于usng WebSphinx API 教程的好网站的建议吗?
我需要一个站点地图,它可以帮助人们和谷歌了解页面。我试过 WebSphinx 应用程序。
我意识到如果我将 wikipedia.org 作为起始 URL,它就不会进一步爬网。
因此,如何真正爬取整个维基百科?任何人都可以给一些指导吗?我是否需要专门去查找这些 URL 并放置多个起始 URL?
任何人都有关于usng WebSphinx API 教程的好网站的建议吗?
爬行维基百科是个坏主意。它是数百 TB 的未压缩数据。我建议使用维基百科提供的各种转储进行离线爬行。在这里找到它们https://dumps.wikimedia.org/
您可以使用页面元信息、外部链接、跨维基链接和重定向数据库等为维基百科创建站点地图。