我最近才发现 Storm 爬虫,根据过去的经验和研究以及使用不同的爬虫,我发现这个基于 Apache Storm 的项目非常健壮,适用于许多用例和场景。
我已经阅读了一些教程并使用一些基本设置测试了风暴爬虫。我想在我的项目中使用爬虫,但有些事情我不确定爬虫是否能够做,或者即使它是否适合这样的用例。
我想在许多具有特定速度设置并限制获取的 url 数量的 web 域上进行大小递归爬网。可以随时使用不同的设置单独启动爬网(不同的速度,忽略该域的 robots.txt,忽略外部链接)。
问题:
- 风暴爬虫适合这样的场景吗?
- 我可以将限制设置为爬虫获取的最大页面数吗?
- 我可以为不同域设置获取页面数量的限制吗?
- 我可以单独监控特定域的爬取进度吗?
- 我可以动态设置设置而不需要将修改后的拓扑上传到storm吗?
- 是否可以暂停或停止抓取(针对特定域)?
- 风暴爬虫通常作为一种部署的拓扑运行吗?
我认为对于其中一些问题,答案可能是定制或编写我自己的螺栓或喷口。但我宁愿避免修改 Fetcher Bolt 或爬虫的主要逻辑,因为这意味着我正在开发另一个爬虫。
谢谢你。