java - 如何爬取整个维基百科？

Question

我试过 WebSphinx 应用程序。

我意识到如果我将 wikipedia.org 作为起始 URL，它就不会进一步爬网。

因此，如何真正爬取整个维基百科？任何人都可以给一些指导吗？我是否需要专门去查找这些 URL 并放置多个起始 URL？

任何人都有关于usng WebSphinx API 教程的好网站的建议吗？

score 48 · Accepted Answer

如果您的目标是爬取所有 Wikipedia，您可能需要查看可用的数据库转储。请参阅http://download.wikimedia.org/。

score 4 · Accepted Answer

我不确定，但也许 WEBSphinx 的 UserAgent 被维基百科的 robots.txt 阻止了

score 2 · Accepted Answer

我认为您无法为此选择所需的配置。切换到高级，爬取子域，不限制页面大小和时间。

然而，WebSphinx可能无法爬取整个Wikipedia，它会随着更大的数据而变慢，并最终停止使用接近 200mb 的内存。我向您推荐Nutch、Heritrix和Crawler4j。

score 0 · Accepted Answer

您可能需要从一篇随机文章开始，然后从该文章开始抓取您可以访问的所有文章。当搜索树用尽时，从新的随机文章开始。您可以使用您认为会导致最多文章的字词来为您的搜索播种，或者从首页上的特色文章开始。

另一个问题：为什么 WebSphinx 没有爬得更远？维基百科会阻止标识为“WebSphinx”的机器人吗？

score 0 · Accepted Answer

除了使用上面提到的 Wikipedia 数据库转储之外，您还可以使用 Wikipedia 的 API 来执行查询，例如检索 100 篇随机文章。

score -1 · Accepted Answer

-1

看看dbpedia，维基百科的结构化版本。

于 2014-08-19T00:01:10.840 回答

6 回答 6