1

我正在开发一个抓取数千万网页的系统,该系统将上线。我宁愿不从头开发爬虫。

哪些开源网络爬虫符合以下标准:

  • 可以定制
  • 高度可扩展
  • 轻松爬取ajax网站
  • 智能爬行
  • 遵纪守法

如果我遗漏了任何一个,请评估您认为重要的其他标准。

我有以下开源爬虫的列表。他们是否具备上述特征?

  1. 刮擦
  2. 机械化
  3. 纳奇
  4. 赫里特里克斯
  5. 亚麻
  6. 跟踪
  7. 蜘蛛侠
  8. 搜查鲁
4

1 回答 1

0

我已经和 nutch 合作了一段时间,它似乎很适合这个标准。插件系统允许您抓取新材料并轻松部署。我遇到的一件事是让它使用多个代理,但总的来说它是非常可定制的。

于 2012-07-10T23:05:41.303 回答