我是scrapy的新手,似乎还没有问过这个问题。
问题是,我只是想对一个大型网站(大约 500 个链接)进行浅层抓取,所以我设置depth_limit=1
了(以后可能会扩展到 2 或 3 个),并且还要求蜘蛛过滤所有重复的响应。
但是看了日志发现,即使当 时depth_limit=1
,爬虫还是会检查很多首页的外链(100000左右),全部返回depth > 1
,浪费时间,因为首页的所有链接都是深度为1的,那么生成的链接肯定会具有 2 或更高的深度。我认为没有理由检查深度为 1 的链接的外链以找到深度等于 1 的外链。
那么如何编写设置来实现自己的逻辑或优化蜘蛛呢?