web-scraping - 是否存在任何开放的、可简单扩展的网络爬虫？

Question

我寻找一个足够成熟并且可以简单扩展的网络爬虫解决方案。我对以下功能感兴趣......或扩展爬虫以满足它们的可能性：

上面的这些事情可以一一完成，而不需要任何大的努力，但我对任何提供可定制、可扩展爬虫的解决方案感兴趣。我听说过 Apache Nutch，但目前对这个项目非常不确定。你有这方面的经验吗？你能推荐替代品吗？

score 4 · Accepted Answer

当我为我的 Krugle 初创公司构建开源项目索引时，我已经广泛使用了 Nutch。作为一个相当单一的设计，很难定制。有一个插件架构，但是插件和系统的交互是棘手和脆弱的。

由于这种经验，并且需要更灵活的东西，我开始了 Bixo 项目 - 一个网络挖掘工具包。http://openbixo.org。

它是否适合您取决于以下因素的权重：

score 2 · Accepted Answer

我衷心推荐heritrix。它非常灵活，我认为它是最受实战考验的免费开源爬虫，因为它是 Internet Archive 使用的。

score 2 · Accepted Answer

2

于 2010-01-18T11:03:04.433 回答

score 2 · Accepted Answer

在GitHub 上快速搜索会发现Anemone，这是一个似乎符合您要求的网络蜘蛛框架——尤其是可扩展性。用红宝石写的。
希望一切顺利！

4 回答 4