我试过 WebSphinx 应用程序。
我意识到如果我将 wikipedia.org 作为起始 URL,它就不会进一步爬网。
因此,如何真正爬取整个维基百科?任何人都可以给一些指导吗?我是否需要专门去查找这些 URL 并放置多个起始 URL?
任何人都有关于usng WebSphinx API 教程的好网站的建议吗?
我试过 WebSphinx 应用程序。
我意识到如果我将 wikipedia.org 作为起始 URL,它就不会进一步爬网。
因此,如何真正爬取整个维基百科?任何人都可以给一些指导吗?我是否需要专门去查找这些 URL 并放置多个起始 URL?
任何人都有关于usng WebSphinx API 教程的好网站的建议吗?
如果您的目标是爬取所有 Wikipedia,您可能需要查看可用的数据库转储。请参阅http://download.wikimedia.org/。
我不确定,但也许 WEBSphinx 的 UserAgent 被维基百科的 robots.txt 阻止了
您可能需要从一篇随机文章开始,然后从该文章开始抓取您可以访问的所有文章。当搜索树用尽时,从新的随机文章开始。您可以使用您认为会导致最多文章的字词来为您的搜索播种,或者从首页上的特色文章开始。
另一个问题:为什么 WebSphinx 没有爬得更远?维基百科会阻止标识为“WebSphinx”的机器人吗?
除了使用上面提到的 Wikipedia 数据库转储之外,您还可以使用 Wikipedia 的 API 来执行查询,例如检索 100 篇随机文章。
http://www.mediawiki.org/wiki/API:Query_- Lists#random .2F_rn
看看dbpedia,维基百科的结构化版本。