7

我寻找一个足够成熟并且可以简单扩展的网络爬虫解决方案。我对以下功能感兴趣......或扩展爬虫以满足它们的可能性:

  • 部分只是为了阅读几个网站的提要
  • 抓取这些网站的内容
  • 如果该站点有存档,我也想对其进行爬网和索引
  • 爬虫应该能够为我探索网络的一部分,它应该能够决定哪些网站符合给定的标准
  • 如果发现可能符合我兴趣的东西,应该能够通知我
  • 爬虫不应该通过太多请求攻击它来杀死服务器,它应该很聪明地进行爬取
  • 爬虫应该对怪异的站点和服务器很健壮

上面的这些事情可以一一完成,而不需要任何大的努力,但我对任何提供可定制、可扩展爬虫的解决方案感兴趣。我听说过 Apache Nutch,但目前对这个项目非常不确定。你有这方面的经验吗?你能推荐替代品吗?

4

4 回答 4

4

当我为我的 Krugle 初创公司构建开源项目索引时,我已经广泛使用了 Nutch。作为一个相当单一的设计,很难定制。有一个插件架构,但是插件和系统的交互是棘手和脆弱的。

由于这种经验,并且需要更灵活的东西,我开始了 Bixo 项目 - 一个网络挖掘工具包。http://openbixo.org

它是否适合您取决于以下因素的权重:

  1. 您需要多大的灵活性 (+)
  2. 它应该有多成熟(-)
  3. 是否需要扩展能力 (+)
  4. 如果您熟悉 Java/Hadoop (+)
于 2010-01-31T15:47:44.660 回答
2

我衷心推荐heritrix。它非常灵活,我认为它是最受实战考验的免费开源爬虫,因为它是 Internet Archive 使用的。

于 2010-01-18T10:32:27.413 回答
2

您应该能够在这里找到适合您需要的东西

于 2010-01-18T11:03:04.433 回答
2

GitHub 上快速搜索会发现Anemone,这是一个似乎符合您要求的网络蜘蛛框架——尤其是可扩展性。用红宝石写的。
希望一切顺利!

于 2010-01-18T21:24:56.680 回答