我一直在Scrapy
非常广泛地使用网络抓取框架,但是,最近我发现还有另一个名为 的框架/系统pyspider
,根据它的 github 页面,它是新鲜的、积极开发和流行的。
pyspider
的主页列出了开箱即用支持的几项内容:
强大的 WebUI,带有脚本编辑器、任务监视器、项目管理器和结果查看器
支持 Javascript 页面!
任务优先级、重试、定期和按年龄或索引页面中的标记重新抓取(如更新时间)
分布式架构
这些是Scrapy
本身不提供的东西,但是,借助portia
(Web UI)、scrapyjs
(js 页面)和scrapyd
(通过API 部署和分发)是可能的。
是否真的可以pyspider
单独取代所有这些工具?换句话说,是pyspider
Scrapy 的直接替代品吗?如果没有,那么它涵盖了哪些用例?
我希望我没有越过“太宽泛”或“基于意见”的界限。