我正在开发一个抓取数千万网页的系统,该系统将上线。我宁愿不从头开发爬虫。
哪些开源网络爬虫符合以下标准:
- 可以定制
- 高度可扩展
- 轻松爬取ajax网站
- 智能爬行
- 遵纪守法
如果我遗漏了任何一个,请评估您认为重要的其他标准。
我有以下开源爬虫的列表。他们是否具备上述特征?
- 刮擦
- 机械化
- 纳奇
- 赫里特里克斯
- 亚麻
- 跟踪
- 蜘蛛侠
- 搜查鲁
我正在开发一个抓取数千万网页的系统,该系统将上线。我宁愿不从头开发爬虫。
哪些开源网络爬虫符合以下标准:
如果我遗漏了任何一个,请评估您认为重要的其他标准。
我有以下开源爬虫的列表。他们是否具备上述特征?