我寻找一个足够成熟并且可以简单扩展的网络爬虫解决方案。我对以下功能感兴趣......或扩展爬虫以满足它们的可能性:
- 部分只是为了阅读几个网站的提要
- 抓取这些网站的内容
- 如果该站点有存档,我也想对其进行爬网和索引
- 爬虫应该能够为我探索网络的一部分,它应该能够决定哪些网站符合给定的标准
- 如果发现可能符合我兴趣的东西,应该能够通知我
- 爬虫不应该通过太多请求攻击它来杀死服务器,它应该很聪明地进行爬取
- 爬虫应该对怪异的站点和服务器很健壮
上面的这些事情可以一一完成,而不需要任何大的努力,但我对任何提供可定制、可扩展爬虫的解决方案感兴趣。我听说过 Apache Nutch,但目前对这个项目非常不确定。你有这方面的经验吗?你能推荐替代品吗?