9

我试过 WebSphinx 应用程序。

我意识到如果我将 wikipedia.org 作为起始 URL,它就不会进一步爬网。

因此,如何真正爬取整个维基百科?任何人都可以给一些指导吗?我是否需要专门去查找这些 URL 并放置多个起始 URL?

任何人都有关于usng WebSphinx API 教程的好网站的建议吗?

4

6 回答 6

48

如果您的目标是爬取所有 Wikipedia,您可能需要查看可用的数据库转储。请参阅http://download.wikimedia.org/

于 2010-02-22T20:02:59.603 回答
4

我不确定,但也许 WEBSphinx 的 UserAgent 被维基百科的 robots.txt 阻止了

http://en.wikipedia.org/robots.txt

于 2010-02-22T20:05:47.023 回答
2

我认为您无法为此选择所需的配置。切换到高级,爬取子域,不限制页面大小和时间。

然而,WebSphinx可能无法爬取整个Wikipedia,它会随着更大的数据而变慢,并最终停止使用接近 200mb 的内存。我向您推荐NutchHeritrixCrawler4j

于 2012-04-21T13:04:59.847 回答
0

您可能需要从一篇随机文章开始,然后从该文章开始抓取您可以访问的所有文章。当搜索树用尽时,从新的随机文章开始。您可以使用您认为会导致最多文章的字词来为您的搜索播种,或者从首页上的特色文章开始。

另一个问题:为什么 WebSphinx 没有爬得更远?维基百科会阻止标识为“WebSphinx”的机器人吗?

于 2010-02-22T20:03:34.017 回答
0

除了使用上面提到的 Wikipedia 数据库转储之外,您还可以使用 Wikipedia 的 API 来执行查询,例如检索 100 篇随机文章。

http://www.mediawiki.org/wiki/API:Query_- Lists#random .2F_rn

于 2010-02-23T00:50:13.913 回答
-1

看看dbpedia,维基百科的结构化版本。

于 2014-08-19T00:01:10.840 回答